Python3 爬虫--网页get和post

爬取网页信息必须清楚网页结构,今天分析网页的两种访问方式get和post

关于两种访问方式,具体参见:—HTTP 方法:GET 对比 POST—

认识get与post

两种 HTTP 请求方法:GET 和 POST
在客户机和服务器之间进行请求-响应时,两种最常被用到的方法是:GET 和 POST。
GET - 从指定的资源请求数据。
POST - 向指定的资源提交要被处理的数据

在浏览器访问网页的时候可以使用F12访问网页源码,便于调试。我们可以再次调试模式下看到网页结构。
我们以有道翻译为例,在有道翻译官网翻译“中华人民共和国”:

get

这里写图片描述
上图中可以看到,服务器给我们传递过来的信息,包括ip地址及访问的网址。

post

这里写图片描述

post Form Data

这里写图片描述
Form Data是用户提交给服务器的数据,从中可以看到我们输入的带翻译内容:中华人民共和国

post User-Agent

这里写图片描述
这个是用户身份的验证,这里信息为浏览器信息,如果用python语言编写爬虫,则User-Agent内容为:Python+版本号,所有伪装身份可以改变User-Agent信息。

python 连接有道翻译

import urllib.request
import urllib.parse
import json

content = input('请输入需要翻译的内容:')

url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc'
data = {}

# 输入data数据,来自post网页的Form data
data['i'] = content
data['type'] = 'AUTO'
data['doctype'] = 'json'
data['xmlVersion'] = '1.8'
data['keyfrom'] = 'fanyi.web'
data['ue'] = 'utf-8'
data['action'] = 'FY_BY_CLICKBUTTON'
data['typoResult'] = 'true'

# 对data内容进行编码(unicode -> utf-8)
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url,data)

# html是json格式的str,使用json.loads 转换为dict
html = response.read().decode('utf-8')
target = json.loads(html)

# print(html)
# print(type(target))
# print(target)
# print(target['translateResult'])
# print(target['translateResult'][0][0])

src = target['translateResult'][0][0]['src']
res = target['translateResult'][0][0]['tgt']
print('需要翻译的内容:'+content )
print('翻译结果:%s' %res)

运行结果:
这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值