原理是 利用浏览器 切换成手机版找规律(存放在webapp...的url里想研究的可以去看看),主要是翻页 比较复杂
目前还不完善 能解析大部分 某度文库 的文档 和图片(有图片的就下载)
- Python资源共享群:626017123
# -*- coding: utf-8 -*-import requestsimport refrom json import loadsimport osfrom tqdm import tqdmclass Baidu(object): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36' } self.rtcs_flag='1' self.rtcs_ver='3.1' self.base_url='http://wkrtcs.bdimg.com/rtcs/webapp' self.base_img='https://wkrtcs.bdimg.com/rtcs/image' self.flag=True self.cout=1 def get_info(self,url): try: r=requests.get(url,headers=self.headers).content.decode() except Exception: print('编码错误,切换编码!') r = requests.get(url, headers=self.headers).content.decode('gbk') self.bucketNum=re.findall('"bucketNum":(\d+),',r)[0] self.sign = re.findall('&sign=(.*?)&',r)[0] self.rsign=re.findall('"rsign":"(.*?)",',r)[0] self.md5sum=re.findall('&md5sum=(.*?)&',r)[0] self.page_list