从0到1:超级简单的爬虫获取博客访问量

目录

1. 爬虫学习

2.爬虫实现(超级简单版)

功能

访问与下载页面

找到存放路径

提取数据

写入文件

总结


1. 爬虫学习

主要学习资料:北邮《Python编程与实践》(2021) 第十讲 爬虫实现哔哩哔哩bilibili

需要的基本知识:

  • 基础的python

  • 简单的计算机网络知识

  • 简单的HTML了解

上述知识在视频教程中均有涉及,实现简单的爬虫基本不需要额外补充学习。

爬虫过程

爬虫应用的整个流程是:访问网页->下载网页源码->解析源码,提取需要信息。

仔细看每个子过程:

访问与下载

利用requests包,访问目标网页并获取网页源代码。下载成功的标志为<result>.status_code ==200

默认requests.get方法不能成功获取的话,需要对请求包的<head>部分做出修改。将我们的python程序伪装成浏览器。

具体操作方法是,打开网站源码,点击网络选项,在下方可以找到浏览器向网站服务器发送的请求,将其复制为cURL,windows要选择cURL(bash),不然后面处理的时候会报错。

 

 

然后需要将cURL指令转化为python命令,可以在这个网站Run Curl Commands Online (reqbin.com)执行转换。前面复制cURL指令的时候如果选择复制为cmd命令的话,在这里会报错,复制bash则一切正常。

将转化完成后的python命令加入我们的程序中。这个网站生成的代码不一定完全正确,可能某些命令的有些问题,解决方法就是直接将有问题的命令删掉。

因为不是所有的命令都是必要的。最终要的内容为user-Agent,其次是referer,然后是accept,包含这三个选项就可以应对大多数情况。

解析

解析主要包括两个步骤:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值