Python爬虫中级(2):Youdao翻译(一)上传表单

概述

  • 我们的一些爬虫需要向后台请求数据后才能得到所需要的数据,在不使用Selenium的情况下,需要向网页传递后台参数,以便得到正确的反馈。
  • 具体来讲,我们需要注意使用POST方法进行请求的链接,他们往往携带者Form表单内容,而表单中则携带着数据。这些数据可能是加密的,也可能很简单。

Youdao翻译爬虫实例

  • 打开Youdao翻译网站,F12检查,清空network栏目,在翻译栏左侧输入英文单词“hi”,可以观察到网页向后台请求了如下图中的数据。
    五项请求
  • 检查各项请求,如下图可发现第一项请求的Preview中含有Json格式数据,且其为翻译结果。
    翻译结果
  • 在此请求的Headers栏中可发现其请求方式为POST,单独请求Request URL仅会显示{“errorCode”:50},此即缺少数据。在Payload栏中可找到其Form Data请求附带表单数据,如下图。
    Form Data
  • 在使用requests请求网站时,将此表单内容捎带上,即可获取翻页结果的JSON文件。

代码

import requests

appVersion = "5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36"

def youdao():
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    headers = {
        'Accept': 'application/json, text/javascript, */*; q=0.01',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'no-cache',
        'Connection': 'keep-alive',
        'Content-Length': '242',
        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
        'Cookie': 'OUTFOX_SEARCH_USER_ID=-1270532315@112.28.191.238; _ntes_nnid=dd32e418bcc6e0bb2ae87c7ef2a74e43,1582685944025; OUTFOX_SEARCH_USER_ID_NCOO=1448366101.8020096; UM_distinctid=17245fd071a226-0081a02b10c39f-46531b29-1fa400-17245fd071b4d; JSESSIONID=aaaYkkUvQE5KD6ybVGVox; ___rl__test__cookies=1596377462367',
        'Host': 'fanyi.youdao.com',
        'Origin': 'http://fanyi.youdao.com',
        'Pragma': 'no-cache',
        'Referer': 'http://fanyi.youdao.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
        'X-Requested-With': 'XMLHttpRequest'
    }
    FormData = {
        'i': 'hi',
        'from': 'AUTO',
        'to': 'AUTO',
        'smartresult': 'dict',
        'client': 'fanyideskweb',
        'salt': '16475935793238',
        'sign': 'b89a9e1bbe2e5caca0ea99d73d4a382b',
        'Its': '1647593579323',
        'bv': '866ddc825824adb95a25e4ff4107f5a0',
        'doctype': 'json',
        'version': '2.1',
        'keyfrom': 'fanyi.web',
        'action': 'FY_BY_CLICKBUTTION'
    }
    response = requests.post(url, data=FormData, headers=headers)
    return response.json()

result = youdao()
print(result)
  • 学如逆水行舟,不进则退!
  • (ง •̀-•́)ง
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一北DMY

感谢大大给萌新的打赏!!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值