python爬虫urllib(1) —使用代理ip,模拟不同浏览器爬取网站

本文介绍了如何使用Python的urllib库,结合代理IP和模拟不同浏览器进行网页爬取。首先,通过创建proxyHandler来设置代理,接着构造opener以实现浏览器模拟。然后,创建请求对象并发送请求到目标网站,最后通过正则表达式清洗获取的网页数据,以提取出网站的标题。
摘要由CSDN通过智能技术生成

一、爬虫任务

爬取网站的标题

步骤:
1、创建proxyHandler(代理ip)->创建opener
2、创建请求对象(不同浏览器)
3、发送请求
4、正则清洗数据

二、python脚本

import random
import re
from urllib import request

#url
url="http://www.baidu.com"

#代理ip
proxylist=[{"http":"120.194.18.90:81"},{"http":"39.137.168.229:80"}]
proxy=random.choice(proxylist)
print(proxy)

#在headers设置不同User-Agent,模拟不同浏览器
agent1="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
agent2="Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.142 Safari/535.19"
agent3="Mozilla/5.0 (Windows NT 6.1; rv:17.0) Gecko/20100101 Firefox/17.0 "
agent4="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2"
agent5="Mozilla/5.0
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值