爬虫学习-requests模块

Knoka705

已于 2022-12-21 14:18:33 修改

阅读量621

点赞数

分类专栏：爬虫文章标签：爬虫

于 2022-12-19 13:57:42 首次发布

本文链接：https://blog.csdn.net/qq_61897309/article/details/128371730

版权

爬虫专栏收录该内容

7 篇文章

订阅专栏

python中原生的一款基于网络请求的模块，功能强大，简单便捷，效率极高
作用：模拟游览器发请求
(15条消息) Header:请求头参数详解_平常心丷的博客-CSDN博客_headers参数
(15条消息) requests的get方法和post方法_不问散人的博客-CSDN博客_request get post
(15条消息) Python爬虫——Requests 的Get和Post请求_万里顾—程的博客-CSDN博客
如何使用：
- 指定url
- 基于requests模块发起请求
- 获取响应对象中的数据值
- 持久化存储
UA伪装
- UA：User-Agent，请求载体的身份标识，用户设备标识
- UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款游览器，说明该请求是一个正常的请求；但是如果检测到请求的载体身份标识不是基于某一款游览器的，则标识该请求为不正常的请求，服务器端就很有可能拒绝此次请求
- UA伪装：将对应的User-Agent封装到一个字典中
实践
一、爬取搜狗首页的页面数据

# requests模块
# 爬寻搜狗首页的页面数据
import requests

if __name__ == '__main__':
    # step1:指定url
    url = 'https://www.sogou.com/'
    # step2:发起请求
    # get方法会返回一个响应对象
    response = requests.get(url=url)
    # step3:获取响应数据,text返回的是字符串响应的数据
    page_text = response.text
    # step4:持久化存储
    with open('./sougou.html', 'w', encoding='utf-8') as wstream:
        wstream.write(page_text)
    print('爬取数据结束！！！')

二、爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

# 简易网页采集器
import requests

if __name__ == '__main__':
    # UA伪装:将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.46'
    }
    # step1:指定url
    url = 'https://www.sogou.com/web'
    # 处理url携带的参数：封装到字典中
    kw = input('enter a word:')
    param = {
        'query': kw
    }
    # step2:发起请求
    # 对指定的url发起的请求对应的url是携带参数的，并且请求过程中处理了参数
    result = requests.get(url=url, params=param, headers=headers)
    # step3:获取响应数据
    fileName = kw + '.html'
    page_text = result.text
    with open(fileName, 'w', encoding='utf-8') as wstream:
        wstream.write(page_text)
    # step4:持久化储存
    print(fileName, '保存成功！！！')

三、破解百度翻译

# 破解百度翻译
import requests
import json

if __name__ == '__main__':
    # step1、指定url
    post_url = 'https://fanyi.baidu.com/sug'
    # step2、进行UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.46'
    }
    # step3、post请求参数处理，同get一致
    kw = input('enter a word:')
    data = {
        'kw': kw
    }
    # step4、请求发送
    result = requests.post(url=post_url, data=data, headers=headers)
    # step5、获取响应数据：json()返回的是一个对象，如果确认响应数据是json类型的，才可以使用json()
    dic_obj = result.json()
    print(dic_obj)
    # step6、持久化存储
    filename = kw + '.json'
    fp = open(filename, 'w', encoding='utf-8')
    json.dump(dic_obj, fp=fp, ensure_ascii=False)
    fp.close()
    print('over!')

post请求（携带了参数）

响应数据是一组json数据

了解：ajax是一种技术，指在不更新整个网页的情况下对页面局部进行刷新的技术

没有sug，要切换为英文输入法
- sug如果表头里面没有kw的化，可以去负载里面找到

四、爬取豆瓣电影分类排行榜豆瓣电影中的电影详情数据

# 豆瓣电影爬取
import requests
import json

if __name__ == '__main__':
    # step1:指定url
    url = 'https://movie.douban.com/j/chart/top_list'
    # step2：设定参数
    param = {
        'type': '25',
        'interval_id': '100:90',
        'action': '',
        'start': '0',  # 从库中的第几部电影去取
        'limit': '20',  # 每次取出的个数
    }
    # UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
    }
    # 数据请求
    response = requests.get(url=url, params=param, headers=headers)
    # 持久化储存
    list_data = response.json()
    fp = open('douban.json', 'w', encoding='utf-8')
    json.dump(list_data, fp=fp, ensure_ascii=False)
    fp.close()
    print('over!!')

五、爬取肯德基餐厅查询肯德基官方网站 - Welcome to KFC.com.cn中指定地点的餐厅数量

import requests
import json

if __name__ == '__main__':
    # 指定url
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
    # 处理参数
    keyword = input('输入要查询的地址：')
    param = {
        'cname': '',
        'pid': '',
        'keyword': keyword,
        'pageIndex': '1',
        'pageSize': '10',
    }
    # UA伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
    }
    # 获取响应数据
    response = requests.post(url=url, params=param, headers=headers)
    ########################################################
    # page_txt = response.text
    # # 持久化储存
    # with open('kfc.txt', 'w', encoding='utf-8') as wstream:
    #     wstream.write(page_txt)
    # print('获取成功')
    ########################################################
    page = response.json()
    print(page)
    fp = open('kfc.json', 'w', encoding='utf-8')
    json.dump(page, fp=fp, ensure_ascii=False)
    fp.close()
    print('完成')