爬虫
文章平均质量分 75
qq_33134761
这个作者很懒,什么都没留下…
展开
-
网络爬虫项目开发日志(五): 爬虫协议初探
--前言-- 常在河边走,哪有不湿鞋 有的时候,网络爬取就像串门一样,如果守规矩的话,是需要先打个电话给主人预约一下,或是进门的时候先敲门看看主人是否在家,如果主人允许咱进去,咱再进去,进去后,也不要东摸摸西看看,否则主人是会发飙了,搞不好就会逐客了。 --概念-- 网络爬取领域,也是一样的,也有着通用的规范,称之为机器人协议,这是一个面向计算机网络搜索引擎的,以Robots命名的原创 2016-11-16 14:26:25 · 1205 阅读 · 0 评论 -
网络爬虫项目开发日志(六): 基于余弦向量法的Web数据并行爬取
--前言-- 随着项目的不断进展,爬虫项目所需要爬取的数据种类越来越多,爬取的体量也越来越大,而且更新频率也更快,单机爬取机制肯定是不适用了,日前,偶然从学术领域得知了基于余弦向量法的多机并发爬取策略,在主流的工业界的分布式策略之外,也算是一泓清流了,特此分享一二。 --概述-- 本文利用并行计算模型计算节点并行工作以提高处理能力的特点,通过余弦向量将抓取任务分配到适合的计算节原创 2016-11-17 15:43:46 · 636 阅读 · 0 评论 -
网络爬虫项目开发日志(七): 基于MD5去重树的爬虫设计与优化
--注-- 本文仅做研究交流用,非工业化标准,各位大神不喜勿喷哈 --引言-- 爬虫系统在面对海量网页数据时,会因为DNS解析以及URL去重而消耗大量的时间,为了更好的改进爬虫的效率,让爬虫在大数据处理时依然拥有良好的性能,我打算使用哈希链表缓存DNS,效率提升2.5~3倍,再将MD5双发以及树结合设计出一种基于MD5的url去重树,理论上使得url去重的空间复杂度相对于普通哈希表缩小60倍原创 2016-11-22 09:20:19 · 2179 阅读 · 1 评论