程序取百度的新闻

转载 2007年09月11日 18:22:00

我做了个程序取百度的新闻,2小时取1次,1次大概取几百条不等,取了一个星期多百度就开始封我IP了,经常是我取下他封下,不取了又解冻了,取了1个月以后就完全把我IP封掉,永远访问不了news.baidu.com了.
我获取的方式如下:

System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(uri);
                request.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.1) Web-Sniffer/1.0.24";
                System.Net.WebResponse response = request.GetResponse();
                System.IO.Stream resStream = response.GetResponseStream();
                System.IO.StreamReader sr = new System.IO.StreamReader(resStream, System.Text.Encoding.Default);
                result = sr.ReadToEnd();
                resStream.Close();
                sr.Close();

有人说改变自己传出去的ip包,把ip信息去掉,可是具体该怎么做呢?
请大家帮忙看看如何才能让百度封不了我,如果被百度这样搞我数据得不到保证就没办法弄了。万分感谢大家帮忙!

你也用爬虫爬东东呀。
这样会封锁你的IP,你用无界代理,当访问不成功时自动换IP访问
content =content.Replace ("'","");
            if (content.IndexOf("免责声明") > 0)
            {
                //this.contentBox.Text = content;
                string sql = "update Comment set HtmlInfo='{0}',tag=1 where id="+IDList [ID];
                sql = string.Format(sql,content);
                this.contentBox.Text = sql;
                this.contentBox.ScrollToCaret();
                SqlHelper.ExecuteNonQuery(cn,CommandType.Text ,sql);
                urlId++;
                ID++;

              
            }
            else //哈哈,对方服务器可能阻止了此IP,我们就换个IP吧
            {
                if (process != null)
                {
                    process.Kill();
                }
                process = System.Diagnostics.Process.Start("wujie_8.exe");
                System.Threading.Thread.Sleep(3000);//等3秒钟,让无界起来
                return false;
            }
这是我以前写的爬虫里启用代理的一部分程序。。。

 

============================

 

用socket连接80端口 Get 首页,然后分析所有链接,再用socket分别GET所有链接(注意,如果你不想程序永不停歇的话,外域的网页就不要去抓了),如此循环往复,GET->分析->GET->分析.....
那么就是一个爬虫了

相关文章推荐

java桌面程序读取百度热搜的前10个关键字新闻

用java读取百度新闻页面(http://news.baidu.com)右边前10个新闻热搜词,废话不多说,附上代码和截图 速度比较慢,因为没做任何的优化,甚至里面的字符串的循环连接都是用的“+”号...

基于http的Java爬虫爬取百度新闻

  • 2016年05月06日 16:13
  • 14KB
  • 下载

Python爬取百度新闻数据并将时间统计到EXCEL中

缘起我的好朋友的毕业论文需要爬取基金经理的新闻数量,并且统计新闻数量与基金的成交率的关系,我当然义不容辞啦。 任务描述:爬取三百位基金经理“百度新闻”中的搜索结果,并且将其分别按月和按季度统计新闻数...
  • mr_phy
  • mr_phy
  • 2017年02月26日 20:30
  • 527

java网络爬虫爬取百度新闻

采用commons-httpclientcommons-httpclient是一个遗留版本,现在官方已经不推荐使用了。lucene采用4.3版本所需jar包650) this.width=650;" ...
  • jethai
  • jethai
  • 2016年08月28日 14:10
  • 1667

python3 脚本爬取今日百度热点新闻并存放到mysql数据库

目标python3.x 脚本爬取今日百度热点新闻并存放到mysql数据库环境准备 安装pymysql pip install pymysql 下载安装mysql 5.x 知识点 python3.x ...

百度新闻标题栏和漂浮框

  • 2016年02月19日 14:31
  • 175KB
  • 下载

html+css仿百度新闻首页(上)

学习html+css+javascript有一段时间了,但动手做的模仿的网页太少所以感觉无从下手,现在回过头来多做几个练练手,第一个是仿百度新闻首页的静态页面,由于之前接触过bootstrap开源cs...

仿百度新闻首页

偶尔在网上看到百度新闻的效果很炫、就自己粗略的仿制一下效果、效果地址:http://news.baidu.com/n?cmd=1&class=reci#0 先说下思路:1、我们可以发现 里面所有的块...
  • djh9527
  • djh9527
  • 2017年07月05日 16:13
  • 167

使用idm下载新闻视频(bbc)及百度云盘内容

最近在寻找一些视频以做不可描述之用,但是在搜集资源的过程中,发现很多的视频没法直接下载(特别是新闻视频)。在本人孜孜不倦的努力研究下终于找到了一种下载视频的好方法(其实是公司内的一位多年老司机前辈所授...

使用htmlunit 获取百度新闻搜索结果的url

public class baiduNewsPost { public static void main(String args[]) throws FailingHttpStatusCode...
  • zjjee
  • zjjee
  • 2014年11月06日 12:47
  • 2084
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:程序取百度的新闻
举报原因:
原因补充:

(最多只允许输入30个字)