程序取百度的新闻

转载 2007年09月11日 18:22:00

我做了个程序取百度的新闻,2小时取1次,1次大概取几百条不等,取了一个星期多百度就开始封我IP了,经常是我取下他封下,不取了又解冻了,取了1个月以后就完全把我IP封掉,永远访问不了news.baidu.com了.
我获取的方式如下:

System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(uri);
                request.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.1) Web-Sniffer/1.0.24";
                System.Net.WebResponse response = request.GetResponse();
                System.IO.Stream resStream = response.GetResponseStream();
                System.IO.StreamReader sr = new System.IO.StreamReader(resStream, System.Text.Encoding.Default);
                result = sr.ReadToEnd();
                resStream.Close();
                sr.Close();

有人说改变自己传出去的ip包,把ip信息去掉,可是具体该怎么做呢?
请大家帮忙看看如何才能让百度封不了我,如果被百度这样搞我数据得不到保证就没办法弄了。万分感谢大家帮忙!

你也用爬虫爬东东呀。
这样会封锁你的IP,你用无界代理,当访问不成功时自动换IP访问
content =content.Replace ("'","");
            if (content.IndexOf("免责声明") > 0)
            {
                //this.contentBox.Text = content;
                string sql = "update Comment set HtmlInfo='{0}',tag=1 where id="+IDList [ID];
                sql = string.Format(sql,content);
                this.contentBox.Text = sql;
                this.contentBox.ScrollToCaret();
                SqlHelper.ExecuteNonQuery(cn,CommandType.Text ,sql);
                urlId++;
                ID++;

              
            }
            else //哈哈,对方服务器可能阻止了此IP,我们就换个IP吧
            {
                if (process != null)
                {
                    process.Kill();
                }
                process = System.Diagnostics.Process.Start("wujie_8.exe");
                System.Threading.Thread.Sleep(3000);//等3秒钟,让无界起来
                return false;
            }
这是我以前写的爬虫里启用代理的一部分程序。。。

 

============================

 

用socket连接80端口 Get 首页,然后分析所有链接,再用socket分别GET所有链接(注意,如果你不想程序永不停歇的话,外域的网页就不要去抓了),如此循环往复,GET->分析->GET->分析.....
那么就是一个爬虫了

python爬虫(抓取百度新闻列表)

一、python请求要抓取的url页面 要抓取的url http://news.baidu.com/ ,先python模拟请求该url#!/usr/bin/python # -*- coding:u...
  • lenovo403
  • lenovo403
  • 2016年02月23日 09:54
  • 2625

Android——百度APIstore+Json——获取新闻频道+新闻数据

Android——百度APIstore+Json——获取新闻频道+新闻数据 package com.example.jreduch08.util; import android.c...
  • zhangyufeng0126
  • zhangyufeng0126
  • 2016年08月17日 19:47
  • 1824

从百度新闻爬取关键词搜索的页面

#coding=utf-8 from pyquery import PyQuery as pq import requests import codecs import json import MyS...
  • wkl7123
  • wkl7123
  • 2016年08月30日 06:15
  • 1083

百度新闻高级搜索URL中各个参数的意思

news.baidu.com/ns                               高级搜索?     ?from=news                                ...
  • semanwmj
  • semanwmj
  • 2012年04月14日 11:51
  • 2798

python爬虫案例——python爬取百度新闻RSS数据

全栈工程师开发手册 (作者:栾鹏) python教程全解 各RSS网站参考http://blog.csdn.net/luanpeng825485697/article/details/...
  • luanpeng825485697
  • luanpeng825485697
  • 2017年12月20日 21:08
  • 1996

百度RSS整理

百度新闻每天发布200000--220000 条新闻,每 5 分钟对互联网上的新闻进行检查,即时在百度上发布最新新闻。     百度RSS新闻来自百度1000多个新闻源,完全由您自己选择所需新闻,3...
  • huyu107
  • huyu107
  • 2015年05月01日 22:33
  • 2950

Python爬取百度新闻数据并将时间统计到EXCEL中

缘起我的好朋友的毕业论文需要爬取基金经理的新闻数量,并且统计新闻数量与基金的成交率的关系,我当然义不容辞啦。 任务描述:爬取三百位基金经理“百度新闻”中的搜索结果,并且将其分别按月和按季度统计新闻数...
  • mr_phy
  • mr_phy
  • 2017年02月26日 20:30
  • 872

html+css仿百度新闻首页(上)

学习html+css+javascript有一段时间了,但动手做的模仿的网页太少所以感觉无从下手,现在回过头来多做几个练练手,第一个是仿百度新闻首页的静态页面,由于之前接触过bootstrap开源cs...
  • Irving_zhang
  • Irving_zhang
  • 2014年12月24日 22:32
  • 3151

python爬取百度新闻所有的新闻的前1页 标题和URL地址

这是我自己写的一个爬取百度新闻的一个代码,欢迎大家多来讨论,谢谢!(自己已经测试可以使用,在最后见效果图)''' 爬取百度新闻所有的新闻的前1页 标题和URL地址 ''' import request...
  • Chao_Qing
  • Chao_Qing
  • 2017年09月06日 11:27
  • 437

python脚本爬取今日百度热点新闻

目标:python脚本爬取今日百度热点新闻知识点: python3使用 urllib.request.urlopen 去打开一个特定网址 中文可以加 decode(‘gbk’) 来避免乱码 re.S ...
  • justheretobe
  • justheretobe
  • 2016年07月25日 23:01
  • 1611
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:程序取百度的新闻
举报原因:
原因补充:

(最多只允许输入30个字)