网络请求模块补充

网络请求模块补充



提示:以下是本篇文章正文内容,下面案例可供参考

一、urllib.parse的补充

1、批量转换成字典格式

Ctrl+R然后会弹出框
点击.图标
在这里插入图片描述
接着输入
上一行 : (.
* ?): (.*)
下一行: “$1”:“$2”,
在这里插入图片描述
然后点击replace all或者全部替换
在这里插入图片描述
然后放到字典里面
在这里插入图片描述
代码展示:

import urllib.parse

dict = {
"ie":"UTF-8",
 "tn":"62095104_35_oem_dg",
 "wd":"爬虫",
}
 # "ie":"UTF-8",
 # "tn":"62095104_35_oem_dg",
 # "wd":"爬虫",

base_url = "https://www.baidu.com/"

url = base_url + urllib.parse.urlencode(dict)
print(url)
print(urllib.parse.urlencode(dict))

2、urllib.parse.urlencode()的作用

urllib.parse.urlencode()能够把字典格式的数据用&拼接成字符串的

二、百度贴吧案例

目标:爬取贴吧数据
需求:
1、输入要爬取的贴吧名字
2、实现翻页爬取 指定起始页
3、保存 1.html 2.html

页面分析

先实现翻页

https://tieba.baidu.com/f?dyTabStr=MCw2LDIsMyw0LDEsNSw3LDgsOQ%3D%3D&fr=ala0&kw=%C0%AF%B1%CA%D0%A1%D0%C2&tpl=5 第一页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=50 第二页
https://tieba.baidu.com/f?kw=%E8%9C%A1%E7%AC%94%E5%B0%8F%E6%96%B0&ie=utf-8&pn=100 第三页

观察这三页的规律
翻页规律:可以发现以50为基数增加的

0 第一页 (1-1)*50
50 第二页 (2-1)*50
100 第三页 (3-1)*50

简单代码实现

# 目标:爬取贴吧数据

import urllib.parse
import urllib.request

title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}

# 目标url的拼接
base_url = "https://tieba.baidu.com/f?"
# range是左闭右开的
for i in range(start, end + 1):
    dict = {
        "kw": title,
        "ie": "utf-8",
        "pn": (i - 1) * 50
    }
    url_res = urllib.parse.urlencode(dict)  # 拼接dict
    url = base_url + url_res
    print(url)

    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url,headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容(源代码)
    html = response.read().decode('utf-8')

    # 保存数据 1.html 2.html
    print("正在爬取html")
    file_name = str(i) + 'html'
    print("已爬取第"+str(i)+'页html信息')
    with open(file_name,'w',encoding='utf-8') as file_obj:
        file_obj.write(html)

1、百度 贴吧改写函数式

import urllib.parse
import urllib.request


# 发送请求 获取网页源代码
def getHtml(url, header):
    """
    :param url: 请求的目标url
    :param header: 请求头
    :return: 返回值html
    """
    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url, headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容(源代码)
    html = response.read().decode('utf-8')
    return html


# 保存到本地
def saveData(html, file_name):
    """
    :param html: 要写入的数据(网页源码)
    :param file_name: 要保存的文件名字
    :return:
    """
    with open(file_name, 'w', encoding='utf-8') as file_obj:
        file_obj.write(html)


# 主函数
def main():
    title = input("请输入要爬取的贴吧主题:")
    start = int(input("请输入开始页:"))
    end = int(input("请输入结束页:"))

    header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
    }
    # 目标url的拼接
    base_url = "https://tieba.baidu.com/f?"
    # range是左闭右开的
    for i in range(start, end + 1):
        dict = {
            "kw": title,
            "ie": "utf-8",
            "pn": (i - 1) * 50
        }
        url_res = urllib.parse.urlencode(dict)  # 拼接dict
        url = base_url + url_res
        print(url)
        html = getHtml(url, header)
        # 保存数据 1.html 2.html
        print("正在爬取html")
        file_name = str(i) + 'html'
        print("已爬取第" + str(i) + '页html信息')
        saveData(html, file_name)


if __name__ == '__main__':
    main()

2、百度 贴吧改写成面向对象式

代码如下(示例):

import urllib.parse
import urllib.request


class BaiduTb():
    def __init__(self):
        pass

    def readHtml(self,url,header):
        """
        :param url: 请求的目标url
        :param header: 请求头
        :return: 返回值html
        """
        # 发送请求 获取响应
        # 1、构造请求对象 url和header
        res_obj = urllib.request.Request(url, headers=header)
        # 2、发送请求
        response = urllib.request.urlopen(res_obj)
        # 3、从响应对象里面获取响应内容(源代码)
        html = response.read().decode('utf-8')
        return html

    def saveHtml(self,file_name,html):
        """
            :param html: 要写入的数据(网页源码)
            :param file_name: 要保存的文件名字
            :return:
            """
        with open(file_name, 'w', encoding='utf-8') as file_obj:
            file_obj.write(html)

    def main(self):
        title = input("请输入要爬取的贴吧主题:")
        start = int(input("请输入开始页:"))
        end = int(input("请输入结束页:"))

        header = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/100.0.4896.127 Safari/537.36 "
        }
        # 目标url的拼接
        base_url = "https://tieba.baidu.com/f?"
        # range是左闭右开的
        for i in range(start, end + 1):
            dict = {
                "kw": title,
                "ie": "utf-8",
                "pn": (i - 1) * 50
            }
            url_res = urllib.parse.urlencode(dict)  # 拼接dict
            url = base_url + url_res
            print(url)
            html = self.readHtml(url, header)
            # 保存数据 1.html 2.html
            print("正在爬取html")
            file_name = str(i) + 'html'
            print("已爬取第" + str(i) + '页html信息')
            self.saveHtml(html, file_name)


if __name__ == '__main__':
    tb = BaiduTb()
    tb.main()

少爬易给封


三、百度案例

页面分析

第一页
wd: 爬虫
pn: 0
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: ff1689940000985b
rsv_t: 9937qekKvRdsq8/euMtVLUaTI1a073D3d+3NPNcP+iF7kL0Ju2LXjKBybNQ1NkDsfr1nDN8ErnJs
第二页
wd: 爬虫
pn: 10
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: baa30ebc0001d955
rsv_t: 2365f1dYeVnMlJqcSmgpP81PEzjCOA25O/ZGKaLKrDG4j5FjqawYexnxyCbsmWO11HmumPQttdIf
第三页
wd: 爬虫
pn: 20
oq: 爬虫
tn: 62095104_35_oem_dg
ie: utf-8
usm: 3
rsv_pq: a0f0e65a0001f772
rsv_t: 0137oyFIandQaSxRttP+OG1x13ZlTp78qigEJjN9eEnazxyAnNFaKEYNc6q1cxmuldwM3kRMlCWZ

~通过页面分析,我们可以看出:
通过动态替换pn能实现翻页
虽然在不同页rsv_pq和rsv_t这两个参数变化了,但是不影响。

缩进

同时退:选择要操作的代码后 按tab
同时进:选择要操作的代码后 按shift + tab

代码实现

import urllib.parse
import urllib.request

title = input("请输入要爬取的贴吧主题:")
start = int(input("请输入开始页:"))
end = int(input("请输入结束页:"))
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/100.0.4896.127 Safari/537.36 "
}
for i in range(start, end + 1):
    # wd和oq对应搜索主题词
    # pn实现翻页
    dict = {
        "wd": title,
        "pn": (i - 1) * 10,
        "oq": title,
        "tn": " 62095104_35_oem_dg",
        "ie": " utf-8",
        "usm": " 3",
        "rsv_pq": " ad76005600003bdf",
        "rsv_t": " d8b6Zjkf0RBxJOU8ZO2cxV83M22udzJG1xPIRAh2q54wA+TJ/MuYJAR336aAf6soUvirGt/HDLUm",
    }

    # 在dict查找主题词和翻页参数
    base_url = "https://www.baidu.com/s?"
    url = base_url + urllib.parse.urlencode(dict)
    # 确定目标url没问题
    print(url)
    # 发送请求 获取响应
    # 1、构造请求对象 url和header
    res_obj = urllib.request.Request(url, headers=header)
    # 2、发送请求
    response = urllib.request.urlopen(res_obj)
    # 3、从响应对象里面获取响应内容(源代码)
    html = response.read().decode('utf-8')
    # 保存数据 1.html 2.html
    print("正在爬取html")
    file_name = "baidu " + title + str(i) + 'html'
    print("已爬取第" + str(i) + '页html信息')
    with open(file_name, 'w', encoding='utf-8') as file_obj:
        file_obj.write(html)

可以在把这个简单代码,改写成函数形式,或者面向对象形式,加深自己学习印象!!!

四、有道翻译

学习目标

如何用urllib发送post请求

需求

输入翻译词 得到相应的翻译结果

确定真正的目标url网址

https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

代码实现

import urllib.parse
import urllib.request
import json

word = input("请输入要翻译的内容:")
# https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule
# 通过测试对比我们发现 翻译不同的内容 目标url是不会变化的
# _o涉及到js逆向
url = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/100.0.4896.127 Safari/537.36 "
}
# 发送post请求时,需要的参数data
data = {
    "i": word,
    "from": "AUTO",
    "to": "AUTO",
    "smartresult": "dict",
    "client": "fanyideskweb",
    "salt": "16504345411038",
    "sign": "1fd879b77c3d9ad88360b4b161a3bb2e",
    "lts": "1650434541103",
    "bv": "ac3968199d18b7367b2479d1f4938ac2",
    "doctype": "json",
    "version": "2.1",
    "keyfrom": "fanyi.web",
    "action": "FY_BY_REALTlME",
}

# 用urllib发送请求的时候 不能携带中文字样
data_new = urllib.parse.urlencode(data)
# TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.
# bytes_data = bytes(data, encoding='utf-8')#TypeError: encoding without a string argument
bytes_data = bytes(data_new, encoding='utf-8')
# 1、构造请求对象(post请求需要传递data)
res_obj = urllib.request.Request(url, headers=header, data=bytes_data)
# 2、发送请求 获取响应对象
response = urllib.request.urlopen(res_obj)
# 3、通过相应对象获取响应内容
result = response.read().decode('utf-8')
# print(type(result), result)
# 提取翻译结果
# json.loads()将字符串转换成字典
# json.dumps()将字典转换成字符串
trans_dict = json.loads(result)
# print(trans_dict)
trans2_dict = trans_dict['translateResult']
# print(trans2_dict)
trans3_dict = trans2_dict[0]
trans4_dict = trans3_dict[0]
# print(trans3_dict)
trans5_dict = trans4_dict['tgt']
print(trans5_dict)

总结

1、用urllib发送请求的时候 不能携带中文字样 如果有 需要用urllib.parse.urlencode()处理
data_new = urllib.parse.urlencode(data)
如果是发送的post请求 需要把携带的数据data转换为bytes 在转换的时候还要注意编码问题

2、目标url中的_o涉及到js逆向

3、把字符串转换为字典
import json

~ json.loads()将字符串转换成字典
~json.dumps()将字典转换成字符串
result是待转换的字符串,trans_dict是转换后的字典
trans_dict = json.loads(result)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猩猩文学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值