麻瓜编程python爬虫微专业_微专业Python爬虫工程师

weixin_39552286

于 2020-12-09 07:34:21 发布

阅读量75

点赞数

文章标签：麻瓜编程python爬虫微专业

什么是爬虫？

爬虫可以做什么？

爬虫的本质

爬虫的基本流程

什么是request&response

爬取到数据该怎么办

什么是爬虫？

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据

爬虫可以做什么？

你可以爬取小姐姐的图片，爬取自己有兴趣的岛国视频，或者其他任何你想要的东西，前提是，你想要的资源必须可以通过浏览器访问的到。

爬虫的本质是什么？

上面关于爬虫可以做什么，定义了一个前提，是浏览器可以访问到的任何资源，特别是对于知晓web请求生命周期的学者来说，爬虫的本质就更简单了。爬虫的本质就是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

浏览器打开网页的过程：

1、在浏览器的输入地址栏，输入想要访问的网址。

2、经过DNS服务器找到服务器主机，向服务器发送一个请求

3、服务器经过解析处理后返回给用户结果(包括html，js，css文件等等内容)

4、浏览器接收到结果，进行解释通过浏览器屏幕呈现给用户结果

上面我们说了爬虫的本质就是模拟浏览器自动向服务器发送请求，获取、处理并解析结果的自动化程序。

爬虫的关键点：模拟请求，解析处理，自动化。

爬虫的基本流程

发起请求

通过HTTP库向目标站点发起请求(request)，请求可以

包含额外的header等信息，等待服务器响应

获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据(图片或者视频)等类型

解析内容

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

保存数据

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

weixin_39552286

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
麻瓜编程python爬虫微专业_微专业Python爬虫工程师

什么是爬虫？爬虫可以做什么？爬虫的本质爬虫的基本流程什么是request&response爬取到数据该怎么办什么是爬虫？网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。