我是跟着@Jack-Cui 老哥的博客爬的,发现爬取的网站更新了,不得不跟着更新爬取的代码
原博客:https://blog.csdn.net/c406495762/article/details/78123502
注:fiddler局限性很大,tunnel to的网页不能显示,问了很多爬虫前辈,加上百度,我用上了charles花瓶,挺好用的,大家可以自行研究下,得搞破解版才行哦!
代码如下,有部分注释,看过原博主的博客,应该都懂的!
要点:1.某些网页的headers需要特殊信息
2.json.loads(req.text) json文本需要转换
3.re.search用法
4.循环中某些常量会不断被覆盖 next_page = html['next_page']
5.contextlib.closing 可以用来关闭网页
6.r.iter_content(chunk_size=1024) requests写入文件的用法
7.progressbar模块 显示进度条
import requests, json, time, sys,re from contextlib import closing from progressbar import * class get_photos(object