2021-01-18

药监总局信息爬取
本篇博客仅为记录本人的学习历程,代码粗糙,还望各位大佬指正。
药监局最新网址http://scxk.nmpa.gov.cn:81/xk/
先通过抓包工具观察网页,Ctrl+F后搜索表格中的内容,如下所示,并没有在HTML文档中发现对于内容
在这里插入图片描述
打开network,点击XHR,刷新网页,会出现一个xhr文件,可得到文件的数据类型为json格式
在这里插入图片描述
在这里插入图片描述
再点击一个公司链接,跟上面同样的操作,可发现访问不同的页面就取决于id的值
在这里插入图片描述
于是乎,见代码

#药监总局信息爬取
#url
import requests
import xlwt
url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
GET='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
data={
    'on': 'true',
    'page': 1,
    'pageSize': 15,
    'productName': '',
    'conditionType': 1,
    'applyname': '',
    'applysn': ''
}
header={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
}
id_list=[]

def get_json(l=[]):
    global header
    get_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    information_data=[]
    for id in l:
        get_data={
            'id':id
        }
        response=requests.post(url=get_url,data=get_data,headers=header)
        information_data.append(response.json())
    return information_data
def get_file(l=[]):
    name=[]
    for key in l[0]:
        name.append(key)

    book = xlwt.Workbook(encoding='utf-8')
    sheet1 = book.add_sheet(u'detail_data', cell_overwrite_ok=True)
    for i in range(len(name)):
        sheet1.write(0, i, name[i])
    i = 0

    for j in range(len(l)):
        for value in l[j].values():
            print(value,'-------',i)
            sheet1.write(j+1,i,value)
            i=i+1
        i=0
    book.save('D:\\detail_data.xlsx')

if __name__=='__main__':
    response=requests.post(url=url,data=data,headers=header)
    for dic in response.json()['list']:
        id_list.append(dic['ID'])
    detail_json=get_json(id_list)
    file=get_file(detail_json)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值