网络爬虫
文章平均质量分 94
jim8757
在校大学生
展开
-
网络爬虫反爬虫
一篇网络爬虫反爬虫综述文章: http://hi.baidu.com/erliang20088/item/3e1cb2cacbb90f6f89ad9ed6?qq-pf-to=pcqq.group原创 2014-05-16 13:49:30 · 157 阅读 · 0 评论 -
JAVA爬虫 WebCollector
https://github.com/CrawlScript/WebCollector WebCollector 爬虫简介 WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的...原创 2014-07-29 15:24:25 · 162 阅读 · 0 评论 -
定向抓取漫谈(转自淘宝搜索技术团队博客)
网络爬虫(web crawler)又称为网络蜘蛛(web spider)是一段计算机程序,它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始,按照一定的策略开始爬取,爬取到的新的url在放入到爬取队列之中,然后进行新一轮的爬取,直到抓取完毕为止。 我们看一下crawler一般会遇到什么样的问题吧: 抓取的网页量很...原创 2013-10-14 16:22:10 · 141 阅读 · 0 评论