网络爬虫
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。
网络爬虫的基本工作流程如下:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
网络爬虫解决的问题有:
1防止重复和陷入死循环。、页面下载。页面上往往有我们需要的信息,如链接,图片,点评等等。前提是能把他们下载下来。
2、链接提取。初始化为一些链接,然后不断抓取的新的链接。
3、URL管理。
4、内容分析和管理。抽取页面上的信息,并存到数据库或文件系统中。
抓取策略
1.深度优先遍历策略
2.广度优先遍历策略
3.反向链接数策略(指一个网页被其他网页链接指向的数量)
4.Partial PageRank策略(将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面。)
5.OPIC策略策略(该算法实际上也是对页面进行一个重要性打分。分现金)
6.大站优先策略(对于待下载页面数多的网站,优先下载。)
造数:智能云爬虫 https://www.zaoshu.io/ (规则设置需要)
八爪鱼:http://www.bazhuayu.com/tutorial
如在规则配置中遇到任何难题,可至数多多规则市场下载已有规则
http://www.dataduoduo.com/Rule/c/u/010/q
也可以通过在线培训资源进行学习:
视频教程:
http://www.bazhuayu.com/tutorial
常见问题:
http://www.bazhuayu.com/faq
详细使用手册:
http://www.bazhuayu.com/doc-wf
爬一爬:
http://www.pa1pa.com/ (相关视频或图文教程在“教程中心”)
1、安装“爬一爬”插件
2、单页文档数据:一新闻,采集其title、date等
3、单页列表数据:爱奇艺电影中的电影名,主演,评分3列
4、多页列表数据:同3,只是分页设置里的要点击“勾”
5、滚动加载:体育视频滚动,注意将下载器更改为 js-engine 同时,“操作”的右侧的“+”添加滚动类型,并设置等待时间和次数
6、JavaScript引擎的使用:(“JavaScript 引擎”通常被称作一种 虚拟机。“虚拟机”是指软件驱动的给定的计算机系统的模拟器。有很多类型的虚拟机,它们根据自己在多大程度上精确地模拟或代替真实的物理机器来分类。):百度指数汽车,选数据排名,品牌,指数3列。
7、采集当前页面并提交:和当页列表一样,只是提交那里选择为采集并提交
8、点击查看更多数据:土豆网动画。 下载器为js-engine,操作设为“点击”,且点那箭头,在网页最后面一定要记得点“加载更多”
9、连接任务:选取数据后,建任务1在列那里点击“额外属性”里勾选“href”即可。再建一个任务2,步骤同任务1,然后在爬一爬官网点击“连接”,连接任务12同时进行。然后在官网的“任务”界面的“数据”按钮
10、合并任务:步骤类同连接任务
11、Tab下载器模式:注意将下载器更改为”js-engine”,并点击最右侧的“使用新窗口打开”
12、采集HTML数据:选取数据后,注意点击“数据表”下面的“H”字样