第一章:什么是爬虫–随便看看就好
网络爬虫的分类:
通用爬虫:有关的信息全部可以搜索出来的的爬虫
聚焦爬虫:有关某一类信息的获取,去掉无关信息的爬虫。
网络爬虫的别名:
网络蜘蛛,网络蚂蚁,网络机器人
它们遵循的算法叫作爬虫算法。
网络爬虫最长用的场景:
搜索引擎:百度搜索–百度爬虫–百度蜘蛛,360爬虫–360spider,搜狗爬虫叫sougouspider,必应爬虫-叫bingbot
搜索引擎的工作流程大致:爬虫爬取信息—存储信息—用户搜索信息–搜索引擎根据特定排序展示信息
为啥学爬虫
- 为了定制搜索引擎
- 数据处理拓展数据源
- 为了SEO优化
- 为了工作,和更高的薪水
爬虫的组成:
- 爬虫节点:根据算法进行爬取数据和网络的文本处理
- 爬虫的控制节点:爬虫的cpu主要根据爬虫url分配线程。
- 资源库:存储爬虫爬取数据库的地方
网络爬虫的分类:
- 通用那爬虫:(全爬虫)所有网络有海量数据
- 聚焦爬虫:(主题爬虫)通过某一主题进行进行爬取。
- 增量式爬虫:只爬取更新的过的网页,为未更新的不爬取。
- 深层式爬虫:爬取深层网页的爬虫(网页分为深层网页《需要提交表单数据才能获得的网页》和浅层网页《通过静态链接直接获取的网页》)