爬虫入门-爬取有道在线翻译结果(2)

由于服务器会识别访问的对象是否为代码并加以限制,所以需要加上一定的措施隐藏代码身份。以上节有道为例:

1、添加headers信息:

在生成request对象时添加headers信息中的User-Agent属性信息,模仿网页端用户。

注意有两种方法,header信息要么在request对象生成前给出,要么在生成之后用add_header()函数添加上去

import urllib.request
import urllib.parse

content=input('请输入需要翻译的内容:')
url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
data={'i': content,
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '1522597233542',
'sign': '520f9eb5cefff7d528e25e43a47bc2e7',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_CLICKBUTTION',
'typoResult': 'false'
}
data=urllib.parse.urlencode(data).encode('utf-8')#python本身字符串是unicode,需要转换为网页默认的utf-8
req=urllib.request.Request(url,data,header)#使用给定header信息,增强隐藏效果(欺骗服务器为个人用户)
'''
req.add_header('User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')
header信息要么在request对象生成前给出,要么在生成之后用add_header()函数添加上去
'''
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')#实际上是个json结构,网页本身是utf-8,需要转换为python的unicode

#json的运用:轻量级数据交换
import json
target=json.loads(html)#转换成字典格式
print('翻译结果:%s' % target['translateResult'][0][0]['tgt'])

但往往当访问频率过高时,服务器就不再关注header信息,而有可能直接要求输入验证码,防止非个人用户访问,这里有以下两种应对办法:

2.增加延迟:

人工强行降低访问频次,使用time.sleep()函数,简单但是效率低

import urllib.request
import urllib.parse

while True:
	content=input('请输入需要翻译的内容(输入字母q退出程序):')
	if content=='q':
		break
	url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
	header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
	data={'i': content,
	'from': 'AUTO',
	'to': 'AUTO',
	'smartresult': 'dict',
	'client': 'fanyideskweb',
	'salt': '1522597233542',
	'sign': '520f9eb5cefff7d528e25e43a47bc2e7',
	'doctype': 'json',
	'version': '2.1',
	'keyfrom': 'fanyi.web',
	'action': 'FY_BY_CLICKBUTTION',
	'typoResult': 'false'
	}
	data=urllib.parse.urlencode(data).encode('utf-8')#python本身字符串是unicode,需要转换为网页默认的utf-8
	req=urllib.request.Request(url,data,header)#使用给定header信息,增强隐藏效果(欺骗服务器为个人用户)
	'''
	req.add_header('User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')
	header信息要么在request对象生成前给出,要么在生成之后用add_header()函数添加上去
	'''
	response=urllib.request.urlopen(req)
	html=response.read().decode('utf-8')#实际上是个json结构,网页本身是utf-8,需要转换为python的unicode

	#json的运用:轻量级数据交换
	import json
	target=json.loads(html)#转换成字典格式
	print('翻译结果:%s' % target['translateResult'][0][0]['tgt'])

	time.sleep(5)#延迟5秒再响应,防止服务器拦截爬虫

3.设置代理

1)参数是一个字典

2)定制、创建一个opener

3)安装调用opener

注意:在opener里添加headers信息时,注意是个list

***百度搜出来的很多地址都不可用,推荐测试ip地址网站 https://www.kuaidaili.com/free/intr/

import urllib.request

url='http://www.whatismyip.com.tw'

proxy_support=urllib.request.ProxyHandler({'http':'119.90.126.106:7777'})#1)参数是一个字典
opener=urllib.request.build_opener(proxy_support)#2)定制、创建一个opener
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36')]
#添加headers信息,避免反爬虫,注意:这里不是字典,而是一个list
urllib.request.install_opener(opener)#3)安装opener
response = urllib.request.urlopen(url) #4)调用opener
html=response.read().decode('utf-8')
print(html)

输出结果如下:

<!DOCTYPE HTML>
<html>
  <head>
	<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
	<meta name="viewport" content="width=device-width,initial-scale=1.0">
	<meta name="description" content="查我的IP,查IP國家,查代理IP及真實IP"/>
	<meta name="keywords" content="查ip,ip查詢,查我的ip,我的ip位址,我的ip位置,我的ip國家,偵測我的ip,查詢我的ip,查看我的ip,顯示我的ip,what is my IP,whatismyip,my IP address,my IP proxy"/>
	<link rel="icon" href="data:;base64,iVBORw0KGgo=">
	<title>我的IP位址查詢</title>
  </head>
  <body>
<h1>IP位址</h1> <span data-ip='119.90.126.106'><b style='font-size: 1.5em;'>119.90.126.106</b></span> <span data-ip-country='CN'><i>CN</i></span><h1>真實IP</h1> <span data-ip-real='*.*.*.*'><b style='font-size: 1.5em;'>*.*.*.*</b></span> <span data-ip-real-country='CN'><i>CN</i></span>


<script type="application/json" id="ip-json">
{
	"ip": "119.90.126.106",
	"ip-country": "CN",
	"ip-real": "*.*.*.*",
	"ip-real-country": "CN"
}
</script>




<script type="text/javascript">
var sc_project=6392240;
var sc_invisible=1;
var sc_security="65d86b9d";
var sc_https=1;
var sc_remove_link=1;
var scJsHost = (("https:" == document.location.protocol) ? "https://secure." : "http://www.");


var _scjs = document.createElement("script");
_scjs.async = true;
_scjs.type = "text/javascript";
_scjs.src = scJsHost + "statcounter.com/counter/counter.js";
var _scnode = document.getElementsByTagName("script")[0];
_scnode.parentNode.insertBefore(_scjs, _scnode);
</script>
<noscript><div class="statcounter"><img class="statcounter" src="http://c.statcounter.com/6392240/0/65d86b9d/1/" alt="statcounter"></div></noscript>


  </body>
</html>


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值