python爬虫_requests模块_ZHOU125disorder

本文链接：https://blog.csdn.net/ZHOU125disorder/article/details/113438283

`requests模块`

requests模块

python中原生的一款基于网络请求的模块，功能强大，操作简单，效率高;
作用：模拟浏览器发送请求;

如何使用requests模块

1. 指定url
2. 发起请求
3. 获取数据
4. 持久化存储

爬取百度首页源代码

# 需求爬取百度首页的源码并保存
# 导入requests模块
import requests
if __name__ == "__main__":
    # 指定url
    url = 'https://www.baidu.com/'
    # 发起请求
    # get方法并返回一个响应对象
    # 使用response接受相应对象
    response = requests.get(url=url)
    # 获取响应数据.text返回的是字符串形式的响应数据
    page_text = response.text
    # 持久化存储
    with open('baidu.html', 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('数据爬取结束')

UA伪装

UA：User-Agent（请求载体的身份标识）。
UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器说明该请求是一个正常的请求。
但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求（爬虫），则服务器端就很有可能拒绝该次请求。
UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器。

百度关键字搜索

import requests
if __name__ == "__main__":
    # UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
    }
    url = 'https://www.baidu.com/s?'
    # 处理url携带的参数：封装到字典中
    search = input('enter a word:')
    params = {
        'wd': search
    }
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url, params=params, headers=headers)
    page_text = response.text
    fileName = search+'.html'
    with open(fileName, 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print(fileName, '保存成功')

百度翻译

import requests
import json        # 导入json模块
if __name__ == "__main__":
    # 1.指定url
    post_url = 'https://fanyi.baidu.com/sug'
    # 2.进行UA伪装
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
    }
    # 3.post请求参数处理（同get请求一致）
    word = input('enter a word:')
    data = {
        'kw': word
    }
    # 4.请求发送
    response = requests.post(url=post_url, data=data, headers=headers)
    # 5.获取响应数据:json()方法返回的是obj（如果确认响应数据是json类型的，才可以使用json（））
    dic_obj = response.json()
    # 持久化存储
    fileName = word+'.json'
    fp = open(fileName, 'w', encoding='utf-8')
    json.dump(dic_obj, fp=fp, ensure_ascii=False)
    print('爬取结束!!!')

豆瓣网

import requests
import json			  # 导入json模块
if __name__ == "__main__":
    url = 'https://movie.douban.com/j/chart/top_list'
    param = {
        'type': '24',
        'interval_id': '100:90',
        'action': '',
        'start': '0',   # 从库中的第几部电影去取
        'limit': '20',  # 一次取出的个数
    }
    # UA伪装
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
    }
    response = requests.get(url=url, params=param, headers=headers)
    list_data = response.json()
    fp = open('./豆瓣.json', 'w', encoding='utf-8')
    json.dump(list_data, fp=fp, ensure_ascii=False)
    print('爬取结束')

肯德基店铺位置爬取

import requests
if __name__ == '__main__':
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    # UA 伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
    }

    # 处理url 携带的参数：封装到字典
    place = input('输入要爬取的网页关键词:')
    data = {
        'cname': '',
        'pid': '',
        'keyword': place,
        'pageIndex': '1',
        'pageSize': '10',
    }
    # 对指定的url 发起的请求对应的url 是携带参数的，并且求情过程中处理了参数
    response = requests.post(url=url, data=data, headers=headers)

    # 获取类型是test
    page_text = response.text

    fileName = place + '.txt'

    with open(fileName, 'w', encoding='utf-8') as pf:
        pf.write(page_text)
    print(fileName, '保存ok')

药监总局

import requests
import json
if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
    }
    id_list = []# 存储企业id
    all_data_list = []  # 存储所有的企业详情数据
    url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    page=(int(input("请输入需要爬取的页数.")))
    for page in range(1, 4):
        page=str(page)
        data = {
                'on': 'true',
                'page': page,
                'pageSize': '15',
                'productName': '',
                'conditionType': '1',
                'applyname': '',
                'applysn': '',
            }
        json_ids = requests.post(url=url, headers=headers, data=data).json()
        for dic in json_ids['list']:
            id_list.append(dic['ID'])
    #获取企业详细信息
    post_url = "http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById"
    for id in id_list:
        data = {
            'id': id,
        }
        detail_json = requests.post(url=post_url, headers=headers, data=data).json()
        print(detail_json)
        all_data_list.append(detail_json)
    # 持久化存储all_data_list
    fp = open('./allData.json', 'w', encoding='utf-8')
    json.dump(all_data_list, fp=fp, ensure_ascii=False)
    print("爬取结束!!!")