爬虫
另眼观世界
研究方向数据挖掘,高手过招,点到不止。
展开
-
爬虫系列三:开发爬虫
1,Java工具: Java开发爬虫常用的工具就是httpclient和htmlparser这两个jar包了。 httpclient实际上就是模拟浏览器发送post或者get请求,这个在本博客的《开启新浪微博的门禁》中有所介绍,可以回去浏览一下。 htmlparser实际上就是解析每一个html页面,以dom树的形式来解析每一个页面。 另外值得一说的是,现在在页面系统里比较风行的ajax,原创 2014-03-27 15:20:41 · 787 阅读 · 0 评论 -
爬虫系列四:为你的爬虫加速
注意:本文所写主要是基于单机的爬虫程序,也就是怎么把单机的爬虫程序,效率提高。 1、手工识别和拒绝爬虫的访问 有相当多的爬虫对网站会造成非常高的负载,因此识别爬虫的来源IP是很容易的事情。最简单的办法就是用netstat检查80端口的连接。 拒绝爬虫请求既可以通过内核防火墙来拒绝,也可以在web server拒绝。 应对方案:反IP,那么就变IP,设置代理。 2、通过识别爬虫的Use原创 2014-03-27 15:27:17 · 1468 阅读 · 0 评论 -
爬虫系列一:准备知识
1,HTTP常用状态码: 2,截包工具: 爬虫是模拟浏览器的事情,那么在开发爬虫之前,最好还是按照浏览器走一遍,看一看都是发送些什么请求。 工具:Wireshark 例如新浪微博: 截包内容如下: 这就是要封装的内容,而自己开发的爬虫也同时需要封装这些信息,才能完成模拟访问。原创 2014-03-27 14:47:53 · 580 阅读 · 0 评论 -
爬虫系列二:认识爬虫
1,爬虫框架结构 爬虫的准备知识,已经普及完毕,那么接下来从整体的角度把握一下爬虫: 这是选自《自己动手写爬虫》一书的一张图,所有的爬虫都离不开这个框架,工程的巨大只是由于你实现较为复杂,但是整体这个架构还是不会变。 2,常见的爬虫框架 C++:Labin Java:Nutch(分布式处理),Heritx Python:scripy 这些爬虫框架,提供了较为友好的api,现在原创 2014-03-27 15:05:19 · 616 阅读 · 0 评论