python3爬虫系列01之结构:爬虫整体架构与常用模块库介绍
如今大数据时代了,博主原来搞java开发的,再不整点新技术,怕是要被淘汰了。于是开始研究起了爬虫系列。一方面呢可以学习python,另一方面呢以后做大数据或者人工智能,都需要数据集吧,自己爬下也好,其次从头开始写,也方便一些人一起学习。
今天,我们正式从0到1,轻松学会 python 爬虫。
爬虫:是一段自动抓取互联网信息的程序;抓取互联网相关数据为自己所用。
我们的爬虫,首先会模拟请求,就好像你在浏览器输入网址,然后回车那样,爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息),大多数的服务器呢,就直接返回数据给爬虫了。这样就可以拿到很多数据了。