文章目录
一、爬虫任务
爬取网站的标题
步骤:
1、创建proxyHandler(代理ip)->创建opener
2、创建请求对象(不同浏览器)
3、发送请求
4、正则清洗数据
二、python脚本
import random
import re
from urllib import request
#url
url="http://www.baidu.com"
#代理ip
proxylist=[{"http":"120.194.18.90:81"},{"http":"39.137.168.229:80"}]
proxy=random.choice(proxylist)
print(proxy)
#在headers设置不同User-Agent,模拟不同浏览器
agent1="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
agent2="Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.142 Safari/535.19"
agent3="Mozilla/5.0 (Windows NT 6.1; rv:17.0) Gecko/20100101 Firefox/17.0 "
agent4="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2"
agent5="Mozilla/5.0