Scrapy微信公众号

最新推荐文章于 2020-11-18 14:42:20 发布

Piccolo_7

最新推荐文章于 2020-11-18 14:42:20 发布

阅读量77

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41206273/article/details/104788899

版权

https://zhuanlan.zhihu.com/p/75667592

这篇专栏里主要实现了如下内容：

配合资源包后：QQ群和网盘里有

1、html元素分析，包括<img>标签的资源替换，src与data-src关键字的分析，图片资源下载本地，html加载图片后下载本地

2、Fiddler软件的使用，配置方法在网址里有，也在github上截过图。包括filter的使用

3、json文件的解析，可以做bejson网站里解析json视图。有的无法解析很清楚，自己可以手动解析大概内容，格式都是类似字典的数据结构，一个关键字对应一个内容

4、error"pip Could not find a version that satisfies the requirement xx No matching distribution found for xx"通常是pip的位置不对，用其他镜像包来pip https://blog.csdn.net/qq284489030/article/details/80511676

5、关于requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)的错误报告

解决方法如下：

先检查是否已安装requests的依赖安装包：

pip install cryptography

pip install pyOpenSSL

pip install certifi

如果已经安装依赖安装包，还会报错，则在请求后面加上verify=False就可以

第一个安装不成用4的方法

6、这种爬虫方式主要是利用json文件有比较清晰的视图格式的特点，可以让我们在视图下轻松的找出爬取资源的特征。在爬之前需要有json文件，用fiddler可以获取，获取不到就GG了。之后在豆瓣上尝试也可以获取json评论的文件，不过不像公众号那样，一划就有新的加载，而是手动点击切换下页。其实这样想，发现是手动获取json文件，然后保存到本地，从中获取内容，这个方法和直接从html源码中爬数据有点像，好处就是不用频繁的访问服务器，不容易被封。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy微信公众号

https://zhuanlan.zhihu.com/p/75667592这篇专栏里主要实现了如下内容：配合资源包后：QQ群和网盘里有1、html元素分析，包括<img>标签的资源替换，src与data-src关键字的分析，图片资源下载本地，html加载图片后下载本地2、Fiddler软件的使用，配置方法在网址里有，也在github上截过图。包括filter的使用3...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。