从0到1：超级简单的爬虫获取博客访问量

最新推荐文章于 2023-12-26 16:49:36 发布

Yetson97

最新推荐文章于 2023-12-26 16:49:36 发布

阅读量720

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33618417/article/details/126809723

版权

目录

1. 爬虫学习

2.爬虫实现（超级简单版）

访问与下载页面

找到存放路径

1. 爬虫学习

主要学习资料：北邮《Python编程与实践》(2021) 第十讲爬虫实现哔哩哔哩bilibili

需要的基本知识：

基础的python
简单的计算机网络知识
简单的HTML了解

上述知识在视频教程中均有涉及，实现简单的爬虫基本不需要额外补充学习。

爬虫过程

爬虫应用的整个流程是：访问网页->下载网页源码->解析源码，提取需要信息。

仔细看每个子过程：

访问与下载：

利用requests包，访问目标网页并获取网页源代码。下载成功的标志为<result>.status_code ==200。

默认requests.get方法不能成功获取的话，需要对请求包的<head>部分做出修改。将我们的python程序伪装成浏览器。

具体操作方法是，打开网站源码，点击网络选项，在下方可以找到浏览器向网站服务器发送的请求，将其复制为cURL，windows要选择cURL(bash)，不然后面处理的时候会报错。

然后需要将cURL指令转化为python命令，可以在这个网站Run Curl Commands Online (reqbin.com)执行转换。前面复制cURL指令的时候如果选择复制为cmd命令的话，在这里会报错，复制bash则一切正常。

将转化完成后的python命令加入我们的程序中。这个网站生成的代码不一定完全正确，可能某些命令的有些问题，解决方法就是直接将有问题的命令删掉。

因为不是所有的命令都是必要的。最终要的内容为user-Agent，其次是referer，然后是accept，包含这三个选项就可以应对大多数情况。

解析：

解析主要包括两个步骤：

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从0到1：超级简单的爬虫获取博客访问量

超简单爬虫：爬取博客访问总量
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。