信息采集
文章平均质量分 78
daisyZH
微博:http://weibo.com/daisyzhuan
展开
-
解析Robots.txt 协议标准
要写一个Robots.txt的解析函数,察看了一些Robots.txt协议:转自:http://www.dedecms.com/knowledge/build-skill/experience/2012/0820/9573.html http://baike.baidu.com/view/1280732.htm另有实例:改变nutch对robots.txt的解转载 2012-12-20 17:20:18 · 777 阅读 · 0 评论 -
nutch源代码阅读心得
转自:http://www.iteye.com/topic/570440主要类分析:一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造,在构造过程中给CrawlDa转载 2012-12-20 17:12:03 · 359 阅读 · 0 评论 -
抓取动态页面
在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓取不到这些ajax生成的内容的,这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面转载 2013-04-26 11:38:02 · 691 阅读 · 0 评论