爬虫入门实践
大家好!随着大数据分析逐渐火热的今天,爬虫技能也成了数据分析师一项不可或缺的技能, 要做好数据分析,爬虫构造出高质量的数据集是前提。那么谈到爬虫,很多同学可能都觉得很复杂,一头雾水,不知从何学起,这里呢就教大家如何从一个简单等实践了解爬虫的基本概念,以及实现一个简单的爬虫并构造出数据集的过程。
爬虫的基本概念
爬虫,就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
顾名思义,爬虫的技术实现需要做的就是模拟人去请求网页并得到访问结果的过程。我们可以拆解一下用户去访问浏览器的过程:
(1)第一,我们要有一个电脑机器。
在爬虫技术实现上这一点就要求有一个入网的ip地址。
(2)第二,用户要打开浏览器进行访问。
这里不得不提到一个概念就是UA(User Agent,用户代理的简写,一般用来区分不同的浏览器。)例如用户使用chrome访问了一个网页,那么chrome向对方发送请求的时候,就会带上UA信息,在对方服务接收到请求的时候,会根据UA信息识别出是哪种浏览器发出的请求,并返回适配这种浏览器解析展示的返回内容,浏览器最终拿到请求结果后,可以按照自身网页解析方式,将内容解析展示到网页上,也就是用户最终看到的结果,每种不同的浏览器都有自己的UA,例如可以很方便的查到,mac电脑chrome96.0版本的UA信息如下:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome