python网络爬虫（第四章实战3）

最新推荐文章于 2023-03-17 22:32:41 发布

小维_

最新推荐文章于 2023-03-17 22:32:41 发布

阅读量520

点赞数

分类专栏： python网络爬虫

本文链接：https://blog.csdn.net/qq_38633279/article/details/119099955

版权

python网络爬虫专栏收录该内容

34 篇文章 15 订阅

订阅专栏

本文介绍了使用Python的requests模块进行网络请求的五个实战案例，包括GET和POST请求，以及处理JSON数据。通过设置User-Agent伪装浏览器，实现了对搜狗、百度翻译、豆瓣电影、肯德基餐厅和国家药品监督管理总局数据的爬取。

摘要由CSDN通过智能技术生成

pycharm中批量添加单引号
1.快捷键【Ctrl+R】调出正则，然后点击在这里插入图片描述
2.第一行输入【(.?): (.?)\n】
3.第二行输入【(.?): (.?)\n】
3.快捷键【Shift+Tab】，左对齐
4.选择【Replace All】

实战1.爬取搜狗指定词条对应的搜索结果页面

基于requests模块的get请求

# 爬取搜狗指定词条对应的搜索结果页面

#UA User-Agent：请求载体的身份标识
#UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常请求。
#但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求（即爬虫），则服务器端可能拒绝该次请求。

#UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
import requests
if __name__ == "__main__":
    #UA伪装：将对应的User-Agent封装到字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }

    url = "https://www.sogou.com/web"
    #处理url携带的参数：装到字典中
    kw = input('enter a word:')
    param = {
        'query':kw
    }
    #对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url,params=param,headers=headers)
    page_text = response.text
    filename = kw+'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(filename,'保存成功！！！')

实战2.爬取百度翻译

**1.post请求（携带参数）
2.响应数据是一组JSON数据，查看content-Type的类型是application/json，**也可以查看Response中的数据类型{‘errno’: 0, ‘data’: [{‘k’: ‘dog’, ‘v’: ‘n. 狗; 蹩脚货; 丑女人; 卑鄙小人 v. 困扰; 跟踪’}, {‘k’: ‘DOG’, ‘v’: ‘abbr. Data Output Gate 数据输出门’}, {‘k’: ‘doge’, ‘v’: ‘n. 共和国总督’}, {‘k’: ‘dogm’, ‘v’: ‘abbr. dogmatic 教条的; 独断的; dogmatism 教条主义; dogmatist’}, {‘k’: ‘Dogo’, ‘v’: ‘[地名] [马里、尼日尔、乍得] 多戈; [地名] [韩国] 道高’}]}

基于requests模块的post请求

# 爬取百度翻译
import requests
import json
if __name__ == "__main__":
    #1.指定URL
    post_url = 'https://fanyi.baidu.com/sug'

    #2.UA伪装
    #请求之前指定UA伪装，在之后的指定url之后，就进行UA伪装
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }
    #3.post请求参数处理（同get请求一致）
    word = input('enter a word:')
    data = {
        'kw':word
    }
    #4.url请求发送
    response = requests.post(post_url,data)
    # requests.post(url，data,json,kw)  data：是一个字典类型的数据，封装了url所携带的参数
    #获取响应数据:json()方法返回的是obj 【如果确认响应数据是json类型，才可以使用json()方法】
    dic_obj = response.json()
    print(dic_obj)
    #5.持久化存储
    filename = word+'.json'
    fp = open(filename,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False)   #json.dump()将python数据结构的文件转换为JSON串   获取的JSON串是中文，因此不可以使用ASC码进行编码
    print('数据爬取成功！！！')

实战3.爬取豆瓣电影分类排行榜https://movie.douban.com/中电影详情数据

基于request模块ajax的get请求

# 爬取豆瓣电影分类排行榜https://movie.douban.com/中电影详情数据
import json
import requests

if __name__ == "__main__":
    url = 'https://movie.douban.com/j/chart/top_list'
    param = {
        'type':'7',
        'interval_id':'100:90',
        'action':'',
        'start':'0',#从库中的第几部电影取出
        'limit':'20', #一次取出的个数
    }
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }
    response = requests.get(url=url,params=param,headers=headers)

    list_data = response.json()   #在网页中查看Response，其中数据类型使用的是中括号[],因此是列表
    fp = open('./douban.json','w',encoding='utf-8')
    json.dump(list_data,fp=fp,ensure_ascii=False)

    print('爬取成功！！！')

实战4.爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅

基于requests模块ajax的post请求

# 爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅
# 基于requests模块ajax的post请求

import requests
if __name__ == "__main__":
    post_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    data = {
        'cname':'',
        'pid':'',
        'keyword': '北京',
        'pageIndex': '1',
        'pageSize': '10',
    }
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }
    response = requests.post(url=post_url,data=data)
    page_text =response.text
    with open('./kfc.html','w',encoding='utf-8') as fp:
        fp.write(page_text)

    print('抓取成功！！！')

实战5.爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据【 http://scxk.nmpa.gov.cn:81/xk/】

综合练习

# 爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据
import requests
import json
if __name__ =="__main__":

#批量获取ID
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    data = {
        'on': 'true',
        'page': '1',
        'pageSize': '15',
        'productName':'',
        'conditionType': '1',
        'applyname':'',
        'applysn':'',
    }
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }
    id_list = [] #存储企业的id
    all_data_list = []  #存储所有的企业详情数据

    json_id = requests.post(url=url,headers=headers,data=data)
    json_ids = json_id.json()
    for dic in json_ids['list']:
        id_list.append(dic['ID'])
    print(id_list)

#获取企业详情数据
    post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    for id in id_list:
        data = {
            'id':id
        }
        detail_data = requests.post(url=post_url,headers=headers,data=data).json()
        print(detail_data)
    print('抓取成功！！！')