爬虫入门第三节 post爬取网页

最新推荐文章于 2024-09-14 14:25:22 发布

greatsheep

最新推荐文章于 2024-09-14 14:25:22 发布

阅读量309

点赞数 3

分类专栏：爬虫从入门到王者文章标签：爬虫

本文链接：https://blog.csdn.net/greatsheep/article/details/141888031

版权

爬虫从入门到王者专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import requests
import json
if __name__ == "__main__":
    post_url = 'https://fanyi.baidu.com/sug'
    # UA伪装：将对应的User-Agent封装到一个字典中
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'
    }
    # post请求参数处理 （同get请求一致）
    word = input('enter a word:')
    data = {
        'kw':word
    }
    response = requests.post(url=post_url,data=data,headers=headers)
    # 获取响应数据：json()方法返回的是obj（如果确认响应数据是json类型的，才可以使用json()）
    dic_obj = response.json()
    # 持久化存储
    fileName = word+'.json'
    fp = open(fileName,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False)

    print('over!')

post提交，应对每次输入时页面都出现刷新的情况！