“21天好习惯”第一期- 2 简单爬虫函数

最新推荐文章于 2023-12-19 09:06:07 发布

GinFounder

最新推荐文章于 2023-12-19 09:06:07 发布

阅读量105

点赞数 2

分类专栏：爬虫文章标签： 1024程序员节爬虫 python vscode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52862895/article/details/120941587

版权

爬虫专栏收录该内容

9 篇文章 1 订阅

订阅专栏

所谓爬虫其实就是程序将自己伪装成浏览器来代替用户进行元素提取操作，那么初学者该如何写一个简单的爬虫函数呢？其实也就三步。

1.编写headers

要想伪装成浏览器，headers是必不可少的，这个东西其实就是网站识别访问者身份的重要凭证，如果爬虫本身没有headers，那么绝大多数网站都会拒绝爬虫访问。

如上图， user-agent相当于浏览器的身份证，网站可以通过它来判别访问者是不是爬虫，cookie则是浏览器对网站进行的操作数据的保存文件，有了这两件凭证，爬虫可以在绝大多数网站中畅行无阻。

2.数据解析

首先导入requests模块

然后res保存网页文本，requests库中的get方法可以将网页以文本方式解析出来，当然，需要传入网页链接和headers，etree中的HTML则是将保存的res以html树型结构再次进行解析，最后用html保存。

3.元素提取

这一步最为简单，只需用浏览器打开你的目标网页，按下F12打开开发者模式，点击工具栏最左上角按钮，再点击即可找到元素在代码中的位置，以哔哩哔哩为例，代码中深色区域为元素位置

右击鼠标，如图所示，点击复制XPATH

到此为止就完成了元素提取

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
“21天好习惯”第一期- 2 简单爬虫函数

所谓爬虫其实就是程序将自己伪装成浏览器来代替用户进行元素提取操作，那么初学者该如何写一个简单的爬虫函数呢？其实也就三步。1.编写headers要想伪装成浏览器，headers是必不可少的，这个东西其实就是网站识别访问者身份的重要凭证，如果爬虫本身没有headers，那么绝大多数网站都会拒绝爬虫访问。如上图， user-agent相当于浏览器的身份证，网站可以通过它来判别访问者是不是爬虫，cookie则是浏览器对网站进行的操作数据的保存文件，有了这两件凭证，爬虫可以在绝大多数网站中畅行无阻。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。