目录
1. 爬虫学习
主要学习资料:北邮《Python编程与实践》(2021) 第十讲 爬虫实现哔哩哔哩bilibili
需要的基本知识:
-
基础的python
-
简单的计算机网络知识
-
简单的HTML了解
上述知识在视频教程中均有涉及,实现简单的爬虫基本不需要额外补充学习。
爬虫过程
爬虫应用的整个流程是:访问网页->下载网页源码->解析源码,提取需要信息。
仔细看每个子过程:
访问与下载:
利用requests包,访问目标网页并获取网页源代码。下载成功的标志为<result>.status_code ==200
。
默认requests.get
方法不能成功获取的话,需要对请求包的<head>部分做出修改。将我们的python程序伪装成浏览器。
具体操作方法是,打开网站源码,点击网络选项,在下方可以找到浏览器向网站服务器发送的请求,将其复制为cURL,windows要选择cURL(bash),不然后面处理的时候会报错。
然后需要将cURL指令转化为python命令,可以在这个网站Run Curl Commands Online (reqbin.com)执行转换。前面复制cURL指令的时候如果选择复制为cmd命令的话,在这里会报错,复制bash则一切正常。
将转化完成后的python命令加入我们的程序中。这个网站生成的代码不一定完全正确,可能某些命令的有些问题,解决方法就是直接将有问题的命令删掉。
因为不是所有的命令都是必要的。最终要的内容为user-Agent,其次是referer,然后是accept,包含这三个选项就可以应对大多数情况。
解析:
解析主要包括两个步骤: