Scrapy微信公众号

https://zhuanlan.zhihu.com/p/75667592

这篇专栏里主要实现了如下内容:

配合资源包后:QQ群和网盘里有

1、html元素分析,包括<img>标签的资源替换,src与data-src关键字的分析,图片资源下载本地,html加载图片后下载本地

2、Fiddler软件的使用,配置方法在网址里有,也在github上截过图。包括filter的使用

3、json文件的解析,可以做bejson网站里解析json视图。有的无法解析很清楚,自己可以手动解析大概内容,格式都是类似字典的数据结构,一个关键字对应一个内容

4、error"pip Could not find a version that satisfies the requirement xx No matching distribution found for xx"通常是pip的位置不对,用其他镜像包来pip   https://blog.csdn.net/qq284489030/article/details/80511676

5、关于requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)的错误报告

解决方法如下:

      先检查是否已安装requests的依赖安装包:

pip install cryptography 

pip install pyOpenSSL

pip install certifi

      如果已经安装依赖安装包,还会报错,则在请求后面加上verify=False就可以

第一个安装不成用4的方法

6、这种爬虫方式主要是利用json文件有比较清晰的视图格式的特点,可以让我们在视图下轻松的找出爬取资源的特征。在爬之前需要有json文件,用fiddler可以获取,获取不到就GG了。之后在豆瓣上尝试也可以获取json评论的文件,不过不像公众号那样,一划就有新的加载,而是手动点击切换下页。其实这样想,发现是手动获取json文件,然后保存到本地,从中获取内容,这个方法和直接从html源码中爬数据有点像,好处就是不用频繁的访问服务器,不容易被封。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值