Crawler
Py菜菜鸟
这个作者很懒,什么都没留下…
展开
-
常见网络爬虫的类型
1.通用网络爬虫(General Purpose Web Crawler) 爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。 通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。 通用网络爬虫的爬行策略:主要有深度优先爬行策略和广度优先爬行策略。2.聚焦网络爬虫(Foc...原创 2018-10-15 11:57:00 · 17496 阅读 · 1 评论 -
通用网络爬虫实现原理
获取初始URL。初始URL地址可以有用户人为指定,也可以由用户指定的某个或某几个初始爬取网页决定。 根据初始的URL爬取页面并获得新的URL。获得初始的URL地址之后,首先需要爬取对应URL地址中的网页,爬取了对应的URL地址中的网页后,将网页存储到原始数据库中,并且在爬取网页的同时,发现新的URL地址,同时将已爬取的URL地址存放到一个URL列表中,用于去重及判断爬取的进程 ...翻译 2018-10-15 14:11:32 · 5163 阅读 · 0 评论 -
聚焦网络爬虫原理
对爬取目标的定义和描述。在聚焦网络爬虫中,我们首先要依据爬取需求定义好该聚焦网络爬虫爬取的目标,以及进行相关的描述 获取初始的URL 根据初始的URL爬取网页,并获得新的URL 从新的URL中过滤掉与爬取目标无关的链接。因为聚焦网络爬虫对网页的抓取是有目的性,所以与目标无关的网页将会被过滤掉。同时,也需要将已爬取的URL地址存放到一个列表中,用于去重和判断爬取的进程 将过滤后的链接放到UR...转载 2018-10-15 14:45:44 · 7180 阅读 · 0 评论