关于python3爬取'http://www.cde.org.cn（国家药品监督管理评审中心）的思路及源码

地主家的小兵将

于 2019-04-15 21:36:03 发布

阅读量4.4k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/bingheshidai_1234/article/details/89321384

版权

本文介绍了如何使用Python3爬取'http://www.cde.org.cn'网站的方法。由于网站可能识别并阻止selenium，故选择了通过webbrowse打开浏览器，利用browsercookie获取cookie，并结合requests进行URL访问。在抓取过程中，借助fiddler分析URL参数，并注意到可能存在IP限制，建议使用代理以避免被限制。提供的代码示例仅展示爬取一页，后续多页需配合代理进行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于这样一个网站：

1.selenium 但是很遗憾告诉你后天会识别出来你用的selenium （这里可以考虑注入js,规避）

2.pyqt5来进行我们的网页信息提取

3.利用webbrowse（调用电脑上安装浏览器，非插件selenium） browsercookie requests 来进行爬取

这里我们采用方案3 思路如下：先用webbrowse 打开浏览器然后利用browsercookie 获取浏览器得cookie ,然后带到我们的requests 进行url 访问，这里在url 地址得时候会用fiddler 抓取我们url 具体得参数：

代码如下：

import webbrowser
import browsercookie
import requests
import os
import time
url = 'http://www.cde.org.cn/priorNotice.do?method=priorNoticeList&noticeType=2' 
chromePath = r'C:\Users\wuser\AppData\Local\Google\Chrome\Application\chrome.exe' #自己电脑chrome安装地址

webbrowser.register('chrome', None, webbrowser.BackgroundBrowser(chromePath))
webbrowser.get('chrome').open(url)
time.sleep(5)
chrome_cookie = browsercookie.chrome()
# 关闭应用
# print(chrome_cookie)
# os.system('TASKKILL