https://zhuanlan.zhihu.com/p/75667592
这篇专栏里主要实现了如下内容:
配合资源包后:QQ群和网盘里有
1、html元素分析,包括<img>标签的资源替换,src与data-src关键字的分析,图片资源下载本地,html加载图片后下载本地
2、Fiddler软件的使用,配置方法在网址里有,也在github上截过图。包括filter的使用
3、json文件的解析,可以做bejson网站里解析json视图。有的无法解析很清楚,自己可以手动解析大概内容,格式都是类似字典的数据结构,一个关键字对应一个内容
4、error"pip Could not find a version that satisfies the requirement xx No matching distribution found for xx"通常是pip的位置不对,用其他镜像包来pip https://blog.csdn.net/qq284489030/article/details/80511676
5、关于requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)的错误报告
解决方法如下:
先检查是否已安装requests的依赖安装包:
pip install cryptography
pip install pyOpenSSL
pip install certifi
如果已经安装依赖安装包,还会报错,则在请求后面加上verify=False就可以
第一个安装不成用4的方法
6、这种爬虫方式主要是利用json文件有比较清晰的视图格式的特点,可以让我们在视图下轻松的找出爬取资源的特征。在爬之前需要有json文件,用fiddler可以获取,获取不到就GG了。之后在豆瓣上尝试也可以获取json评论的文件,不过不像公众号那样,一划就有新的加载,而是手动点击切换下页。其实这样想,发现是手动获取json文件,然后保存到本地,从中获取内容,这个方法和直接从html源码中爬数据有点像,好处就是不用频繁的访问服务器,不容易被封。