网络请求模块补充

猩猩文学

已于 2022-05-07 14:40:55 修改

阅读量552

点赞数

分类专栏： python爬虫文章标签： python

于 2022-04-20 14:44:08 首次发布

本文链接：https://blog.csdn.net/R71802/article/details/123966344

版权

python爬虫专栏收录该内容

19 篇文章 4 订阅

订阅专栏

网络请求模块补充

文章目录

网络请求模块补充
一、urllib.parse的补充
- 1、批量转换成字典格式
- 2、urllib.parse.urlencode()的作用
二、百度贴吧案例
- 页面分析
三、百度案例
四、有道翻译
- 总结

提示：以下是本篇文章正文内容，下面案例可供参考

一、urllib.parse的补充

1、批量转换成字典格式

Ctrl+R然后会弹出框
点击.图标

接着输入
上一行： (.* ?): (.*)
下一行： “$1”:“$2”,
在这里插入图片描述
然后点击replace all或者全部替换

然后放到字典里面

代码展示：

import urllib.parse

dict = {
"ie":"UTF-8",
 "tn":"62095104_35_oem_dg",
 "wd":"爬虫",
}
 # "ie":"UTF-8",
 # "tn":"62095104_35_oem_dg",
 # "wd":"爬虫",

base_url = "https://www.baidu.com/"

url = base_url + urllib.parse.urlencode(dict)
print(url)
print(urllib.parse.urlencode(dict))

2、urllib.parse.urlencode()的作用

urllib.parse.urlencode()能够把字典格式的数据用&拼接成字符串的

二、百度贴吧案例

目标：爬取贴吧数据
需求：
1、输入要爬取的贴吧名字
2、实现翻页爬取指定起始页
3、保存 1.html 2.html

页面分析

先实现翻页

https://tieba.baidu.com/f?dyTabStr=MCw2LDIsMyw0LDEsNSw3LDgsOQ%3D%3D&fr=ala0&kw=%C0%AF%B1%CA%D0%A1%D0%C2&tpl=5 第一页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=50 第二页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=100 第三页

观察这三页的规律
翻页规律：可以发现以50为基数增加的
0 第一页（1-1）*50
50 第二页（2-1）*50
100 第三页（3-1）*50

简单代码实现

# 目标：爬取贴吧数据

import urllib.parse
import urllib.request

title = input("请输入要爬取的贴吧主题：")
start = int(input("请输入开始页："))
end = int(input("请输入结束页："))

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}

# 目标url的拼接
base_url = "https://tieba.baidu.com/f?"
# range是左闭右开的
for i in range(start, end + 1):
    dict = {
        "kw": title,
        "ie": "utf-8",
        "pn": (i - 1) * 50
    }
    url_res = urllib.parse.urlencode(dict)  # 拼接dict
    url = base_url + url_res
    print(url)

    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url,headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容（源代码）
    html = response.read().decode('utf-8')

    # 保存数据 1.html 2.html
    print("正在爬取html")
    file_name = str(i) + 'html'
    print("已爬取第"+str(i)+'页html信息')
    with open(file_name,'w',encoding='utf-8') as file_obj:
        file_obj.write(html)

1、百度贴吧改写函数式

import urllib.parse
import urllib.request


# 发送请求 获取网页源代码
def getHtml(url, header):
    """
    :param url: 请求的目标url
    :param header: 请求头
    :return: 返回值html
    """
    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url, headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容（源代码）
    html = response.read().decode('utf-8')
    return html


# 保存到本地
def saveData(html, file_name):
    """
    :param html: 要写入的数据（网页源码）
    :param file_name: 要保存的文件名字
    :return:
    """
    with open(file_name, 'w', encoding='utf-8') as file_obj:
        file_obj.write(html)


# 主函数
def main():
    title = input("请输入要爬取的贴吧主题：")
    start = int(input("请输入开始页："))
    end = int(input("请输入结束页："))

    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
    }
    # 目标url的拼接
    base_url = "https://tieba.baidu.com/f?"
    # range是左闭右开的
    for i in range(start, end + 1):
        dict = {
            "kw": title,
            "ie": "utf-8",
            "pn": (i - 1) * 50
        }
        url_res = urllib.parse.urlencode(dict)  # 拼接dict
        url = base_url + url_res
        print(url)
        html = getHtml(url, header)
        # 保存数据 1.html 2.html
        print("正在爬取html")
        file_name = str(i) + 'html'
        print("已爬取第" + str(i) + '页html信息')
        saveData(html, file_name)


if __name__ == '__main__':
    main()

2、百度贴吧改写成面向对象式

代码如下（示例）：

import urllib.parse
import urllib.request


class BaiduTb():
    def __init__(self):
        pass

    def readHtml(self,url,header):
        """
        :param url: 请求的目标url
        :param header: 请求头
        :return: 返回值html
        """
        # 发送请求 获取响应
        # 1、构造请求对象 url和header
        res_obj = urllib.request.Request(url, headers=header)
        # 2、发送请求
        response = urllib.request.urlopen(res_obj)
        # 3、从响应对象里面获取响应内容（源代码）
        html = response.read().decode('utf-8')
        return html

    def saveHtml(self,file_name,html):
        """
            :param html: 要写入的数据（网页源码）
            :param file_name: 要保存的文件名字
            :return:
            """
        with open(file_name, 'w', encoding='utf-8') as file_obj:
            file_obj.write(html)

    def main(self):
        title = input("请输入要爬取的贴吧主题：")
        start = int(input("请输入开始页："))
        end = int(input("请输入结束页："))

        header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/100.0.4896.127 Safari/537.36 "
        }
        # 目标url的拼接
        base_url = "https://tieba.baidu.com/f?"
        # range是左闭右开的
        for i in range(start, end + 1):
            dict = {
                "kw": title,
                "ie": "utf-8",
                "pn": (i - 1) * 50
            }
            url_res = urllib.parse.urlencode(dict)  # 拼接dict
            url = base_url + url_res
            print(url)
            html = self.readHtml(url, header)
            # 保存数据 1.html 2.html
            print("正在爬取html")
            file_name = str(i) + 'html'
            print("已爬取第" + str(i) + '页html信息')
            self.saveHtml(html, file_name)


if __name__ == '__main__':
    tb = BaiduTb()
    tb.main()

少爬易给封

三、百度案例

页面分析

第一页
wd: 爬虫
pn: 0
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: ff1689940000985b
rsv_t: 9937qekKvRdsq8/euMtVLUaTI1a073D3d+3NPNcP+iF7kL0Ju2LXjKBybNQ1NkDsfr1nDN8ErnJs
第二页
wd: 爬虫
pn: 10
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: baa30ebc0001d955
rsv_t: 2365f1dYeVnMlJqcSmgpP81PEzjCOA25O/ZGKaLKrDG4j5FjqawYexnxyCbsmWO11HmumPQttdIf
第三页
wd: 爬虫
pn: 20
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: a0f0e65a0001f772
rsv_t: 0137oyFIandQaSxRttP+OG1x13ZlTp78qigEJjN9eEnazxyAnNFaKEYNc6q1cxmuldwM3kRMlCWZ

~通过页面分析，我们可以看出：
通过动态替换pn能实现翻页
虽然在不同页rsv_pq和rsv_t这两个参数变化了，但是不影响。

缩进

同时退：选择要操作的代码后按tab
同时进：选择要操作的代码后按shift + tab

代码实现

import urllib.parse
import urllib.request

title = input("请输入要爬取的贴吧主题：")
start = int(input("请输入开始页："))
end = int(input("请输入结束页："))
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/100.0.4896.127 Safari/537.36 "
}
for i in range(start, end + 1):
    # wd和oq对应搜索主题词
    # pn实现翻页
    dict = {
        "wd": title,
        "pn": (i - 1) * 10,
        "oq": title,
        "tn": " 62095104_35_oem_dg",
        "ie": " utf-8",
        "usm": " 3",
        "rsv_pq": " ad76005600003bdf",
        "rsv_t": " d8b6Zjkf0RBxJOU8ZO2cxV83M22udzJG1xPIRAh2q54wA+TJ/MuYJAR336aAf6soUvirGt/HDLUm",
    }

    # 在dict查找主题词和翻页参数
    base_url = "https://www.baidu.com/s?"
    url = base_url + urllib.parse.urlencode(dict)
    # 确定目标url没问题
    print(url)
    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url, headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容（源代码）
    html = response.read().decode('utf-8')
    # 保存数据 1.html 2.html
    print("正在爬取html")
    file_name = "baidu " + title + str(i) + 'html'
    print("已爬取第" + str(i) + '页html信息')
    with open(file_name, 'w', encoding='utf-8') as file_obj:
        file_obj.write(html)

可以在把这个简单代码，改写成函数形式，或者面向对象形式，加深自己学习印象！！！

四、有道翻译

学习目标

如何用urllib发送post请求

需求

输入翻译词得到相应的翻译结果

确定真正的目标url网址

https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

代码实现

import urllib.parse
import urllib.request
import json

word = input("请输入要翻译的内容：")
# https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
# 通过测试对比我们发现 翻译不同的内容 目标url是不会变化的
# _o涉及到js逆向
url = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/100.0.4896.127 Safari/537.36 "
}
# 发送post请求时，需要的参数data
data = {
    "i": word,
    "from": "AUTO",
    "to": "AUTO",
    "smartresult": "dict",
    "client": "fanyideskweb",
    "salt": "16504345411038",
    "sign": "1fd879b77c3d9ad88360b4b161a3bb2e",
    "lts": "1650434541103",
    "bv": "ac3968199d18b7367b2479d1f4938ac2",
    "doctype": "json",
    "version": "2.1",
    "keyfrom": "fanyi.web",
    "action": "FY_BY_REALTlME",
}

# 用urllib发送请求的时候 不能携带中文字样
data_new = urllib.parse.urlencode(data)
# TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.
# bytes_data = bytes(data, encoding='utf-8')#TypeError: encoding without a string argument
bytes_data = bytes(data_new, encoding='utf-8')
# 1、构造请求对象（post请求需要传递data）
res_obj = urllib.request.Request(url, headers=header, data=bytes_data)
# 2、发送请求 获取响应对象
response = urllib.request.urlopen(res_obj)
# 3、通过相应对象获取响应内容
result = response.read().decode('utf-8')
# print(type(result), result)
# 提取翻译结果
# json.loads()将字符串转换成字典
# json.dumps()将字典转换成字符串
trans_dict = json.loads(result)
# print(trans_dict)
trans2_dict = trans_dict['translateResult']
# print(trans2_dict)
trans3_dict = trans2_dict[0]
trans4_dict = trans3_dict[0]
# print(trans3_dict)
trans5_dict = trans4_dict['tgt']
print(trans5_dict)

总结

1、用urllib发送请求的时候不能携带中文字样如果有需要用urllib.parse.urlencode()处理
data_new = urllib.parse.urlencode(data)
如果是发送的post请求需要把携带的数据data转换为bytes 在转换的时候还要注意编码问题

2、目标url中的_o涉及到js逆向

3、把字符串转换为字典
import json

~ json.loads()将字符串转换成字典
~json.dumps()将字典转换成字符串
result是待转换的字符串，trans_dict是转换后的字典
trans_dict = json.loads(result)

猩猩文学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
网络请求模块补充

网络请求模块补充文章目录网络请求模块补充一、urllib.parse的补充二、百度贴吧案例1.百度贴吧改写函数式2.百度贴吧改写成面向对象式三、百度案例四、有道翻译提示：以下是本篇文章正文内容，下面案例可供参考一、urllib.parse的补充二、百度贴吧案例1.百度贴吧改写函数式
复制链接

扫一扫