2019-03-15 使用Request POST获取中加基金的PDF文件,并下载到本地

import requests
import time
base_url='http://www.bobbns.com/common-web/cms/content!getContentsIncludeSubCategoryOrderByHitCountDesc?noCache=1552542874867'
# User-Agent 是必须的,其它的尽量多写点 headers={ 'Host':'www.bobbns.com', 'Referer':'http://www.bobbns.com/byfy/zhuanxiang/index.html', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER', 'X-Requested-With':'XMLHttpRequest' } def get_page(pageNumber): # 分页变量 pageNumber data={ 'siteId':'f44c6a2aee134f608a82af7561debf57', 'categoryId':'7f6b707209f5482984438df86ec64ecd', 'pageNumber':pageNumber, 'pageSize':'10' }
try: response=requests.post(url=base_url,data=data,headers=headers) # print(response.json()['contents']) if response.status_code==200: return response.json() except Exception as e: print(e) def parse_page(json): if json: items=json.get('contents') for item in items: results={} results['title']=item.get('title') results['url']='http://www.bobbns.com'+item.get('url') yield results if __name__ == '__main__': for pageNumber in range(1,9): json=get_page(pageNumber) results=parse_page(json) for result in results: rep=requests.get(result['url'],headers) time.sleep(6) with open(r'./PDF/{}.pdf'.format(result['title']),'wb') as f: f.write(rep.content) # print(result)

 

转载于:https://www.cnblogs.com/theDataDigger/p/10536879.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值