Python3 爬虫--伪装

本文介绍了Python3爬虫中如何进行伪装以避免被目标网站识别,包括设置访问延时、修改Request Header以模拟不同用户浏览器,并详细讲解了如何使用User-Agent以及代理proxy来提高爬虫的隐蔽性。
摘要由CSDN通过智能技术生成

因为网页会存在访问者身份识别(例如禁止同ip连续访问),所有我们在爬取网页的时候有必要做一些“隐藏”。

访问延时

import urllib.request
import urllib.parse
import json
import time

while 1:
    content = input('请输入需要翻译的内容(输入q!退出):')
    if content == 'q!':
        break

    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc'
    data = {}
    data['i'] = content
    data['type'] = 'AUTO'
    data['doctype'] = 'json'
    data['xmlVersion'] = '1.8'
    data['keyfrom'] = 'fanyi.web'
    data['ue'] = 'utf-8'
    data['action'] = 'FY_BY_CLICKBUTTON'
    data['typoResult'] = 'true'

    data = urllib.parse.urlencode(data).encode('utf-8')
    response = urllib.request.urlopen(url,data)

    html = response.read().decode('utf-8')
    target = json.loads(html)

    src = target['translateResult'][0][0]['src']
    res = target['translateResult'][0][0]['tgt']
    print('需要翻译的内容:'+content )
    print('翻译结果:%s' %res)

    time.sleep(3)

修改Request Header

import urllib.request

url = 'http://www.baidu.com'

req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')

response = urllib.request.urlopen(url)
html = response.read()

使用的User—Agent按下图方式查找:

这里写图片描述

使用代理proxy

import urllib.request
import random

url = 'http://www.whatismyip.com.tw'

# 代理ip列表,代理ip可在网上搜索
iplist = ['94.231.116.134:8080','183.222.102.105:80','123.84.13.240:8118','115.231.128.79:8080','58.221.38.70:8080']

# 代理ip的使用
proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener = urllib.request.build_opener(proxy_support)
opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')]

urllib.request.install_opener(opener)

response = urllib.request.urlopen(url)
html = response.read().decode('utf-8')

print(html)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值