写在最开始
最近开始慢慢的自学爬虫,一边学也一边想写点什么,所以在这里写下来,也当是对自己学习过程的一个总结。
什么是爬虫
互联网每天都会产生大量的数据,但是互联网产生的数据大都是非结构化的数据,无法直接用于分析产生价值,所以需要对这样一些网页里的数据进行抓取,得到有价值的结构化数据。而网络爬虫就是这样一种用于抓取网页的程序。实际上我们常用的百度,谷歌等搜索引擎就是功能强大的爬虫。
网络爬虫的工作方式比较固定,(1)通过 url 定位网页,并下载网页内容(文本);(2)对网页内容进行分析,定位,得到感兴趣的数据;(3)同时从这个网页中解析出其中感兴趣的 url,回到步骤(1);(4)直到达到某种停止条件(没有更多 url 等原因)。通过这样的方式,可以将我们的访问从一个入口延伸到许许多多感兴趣的页面。
爬虫涉及的知识点
网络爬虫涉及的内容较多也比较杂,在这里先对这些内容进行一下大致的介绍。
1. 网页的组成