先认识爬虫

最新推荐文章于 2022-04-20 11:56:13 发布

stray。。

最新推荐文章于 2022-04-20 11:56:13 发布

阅读量137

点赞数

分类专栏：笔记文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52585291/article/details/121190908

版权

笔记专栏收录该内容

26 篇文章 0 订阅

订阅专栏

认识爬虫

爬虫要做的是什么？

我们所谓的上网是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。

用户获取网络数据的方式是：浏览器提交请求->下载网页代码->解析/渲染成页面。

而爬虫程序要做的就是：模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中

所以爬虫就是通过编写程序,模拟浏览器上网,向网站发起请求,让其去互联网上获取数据后分析并提取有用数据的程序

爬虫的基本步骤

1.发起请求：
通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers、data等信息，然后等待服务器响应。这个请求的过程就像我们打开浏览器，在浏览器地址栏输入网址：www.baidu.com，然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端，向服务器端发送了一次请求。

2.获取响应内容：
如果服务器能正常响应，我们会得到一个Response，Response的内容便是所要获取的内容，类型可能有HTML、Json字符串，二进制数据(图片，视频等）等类型。这个过程就是服务器接收客户端的请求，进过解析发送给浏览器的网页HTML文件。

3.解析内容：
得到的内容可能是HTML，可以使用正则表达式，网页解析库进行解析。也可能是Json，可以直接转为Json对象解析。可能是二进制数据，可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地，再进行解释并且展现出来。

4.保存数据：
保存的方式可以是把数据存为文本，也可以把数据保存到数据库，或者保存为特定的jpg，mp4 等格式的文件。这就相当于我们在浏览网页时，下载了网页上的图片或者视频。

————————————————

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
先认识爬虫

认识爬虫爬虫要做的是什么？我们所谓的上网是由用户端计算机发送请求给目标计算机，将目标计算机的数据下载到本地的过程。用户获取网络数据的方式是：浏览器提交请求->下载网页代码->解析/渲染成页面。而爬虫程序要做的就是：模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中所以爬虫就是通过编写程序,模拟浏览器上网,向网站发起请求,让其去互联网上获取数据后分析并提取有用数据的程序爬虫的基本步骤1.发起请求：通过HTTP库向目标站点发起请求，即
复制链接

扫一扫

专栏目录

stray。。 CSDN认证博客专家 CSDN认证企业博客

码龄4年

48: 原创

80万+: 周排名

179万+: 总排名

1万+: 访问

: 等级

515: 积分

2: 粉丝

11: 获赞

0: 评论

32: 收藏

私信

关注

热门文章

分类专栏

刷题笔记 8篇
Java 11篇
笔记 26篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。