![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索
pandf
这个作者很懒,什么都没留下…
展开
-
网络爬虫 学习1
作者:Ackarlix 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1) 不同领域、不同转载 2013-10-12 16:32:57 · 1100 阅读 · 0 评论 -
网络爬虫 学习2
那么依据特征,其实也就是要求了,如何设计爬虫呢?要注重哪些步骤呢? 1】 url 的遍历和纪录 这点 larbin 做得非常的好,其实对于url的遍历是很简单的,例如: cat [what you got]| tr \" \\n | gawk '{print $2}' | pcregrep ^http:// 就可以得到一个所由的 url 列表 2】多进程 VS 多线程 各有转载 2013-10-12 16:34:56 · 458 阅读 · 0 评论