添加并查看用户代理
import urllib.request
def load_baidu():
url= "https://www.baidu.com"
header = {
#浏览器的版本
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
# "haha":"hehe"
}
#创建请求对象
request = urllib.request.Request(url)
#request = urllib.request.Request(url,headers=header)
#动态的去添加head的信息
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
#请求网络数据(不在此处增加请求头信息因为此方法系统没有提供参数)
response = urllib.request.urlopen(request)
print(response)
data = response.read().decode("utf-8")
#获取到完整的url
final_url = request.get_full_url()
print(final_url)
#响应头
# print(response.headers)
#获取请求头的信息(所有的头的信息)
# request_headers = request.headers
# print(request_headers)
#(2)第二种方式打印headers的信息
#注意点:首字母需要大写,其他字母都小写
request_headers = request.get_header("User-agent")
# print(request_headers)
with open("02header.html","w")as f:
f.write(data)
load_baidu()
随机用不同用户访问浏览器
import urllib.request
import random
def load_baidu():
url = "http://www.baidu.com"
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50"
]
#每次请求的浏览器都是不一样的
random_user_agent = random.choice(user_agent_list)
request = urllib.request.Request(url)
#增加对应的请求头信息(user_agent)
request.add_header("User-Agent",random_user_agent)
#请求数据
response = urllib.request.urlopen(request)
#请求头的信息
print(request.get_header("User-agent"))
load_baidu()
为urlopen添加代理的功能
import urllib.request
def handler_openner():
#系统的urlopen并没有添加代理的功能所以需要我们自定义这个功能
#安全 套接层 ssl第三方的CA数字证书
#http80端口# 和https443
#urlopen为什么可以请求数据 handler处理器
#自己的oppener请求数据
# urllib.request.urlopen()
url = "https://blog.csdn.net/weixin_43362002/article/details/104658199"
#创建自己的处理器
handler = urllib.request.HTTPHandler()
#创建自己的oppener
opener=urllib.request.build_opener(handler)
#用自己创建的opener调用open方法请求数据
response = opener.open(url)
# data = response.read()
data = response.read().decode("utf-8")
with open("05header.html", "w",encoding='utf-8')as f:
f.write(data)
handler_openner()
添加一个ip地址
import urllib.request
def create_proxy_handler():
url = "https://blog.csdn.net/weixin_43362002/article/details/104658199"
#添加代理
proxy = {
#免费的写法
"http":"http://120.77.249.46:8080"
# "http":"120.77.249.46:8080"
#付费的代理
# "http":"xiaoming":123@115.12.44
}
#代理处理器
proxy_handler = urllib.request.ProxyHandler(proxy)
#创建自己opener
opener = urllib.request.build_opener(proxy_handler)
#拿着代理ip去发送请求
response = opener.open(url)
data = response.read().decode("utf-8")
with open("03header.html", "w",encoding='utf-8')as f:
f.write(data)
create_proxy_handler()
添加多个ip地址
import urllib.request
def proxy_user():
proxy_list = [
{"https": "106.75.226.36:808"},
{"https":"120.77.249.46:8080"},
{"https":"61.135.217.7:80"},
{"https":"125.70.13.77:8080"},
{"https":"118.190.95.35:9001"}
]
for proxy in proxy_list:
print(proxy)
#利用遍历出来的ip创建处理器
proxy_handler = urllib.request.ProxyHandler(proxy)
#创建opener
opener = urllib.request.build_opener(proxy_handler)
try:
data = opener.open("http://www.baidu.com",timeout=1)
haha = data.read()
print(haha)
except Exception as e:
print(e)
proxy_user()
付费的ip代理请求
import urllib.request
#付费的代理发送
#1.用户名密码(带着)
#通过验证的处理器来发送
def money_proxy_use():
# #第一种方式付费代理发送请求
# #1.代理ip
# money_proxy ={"http":"username:pwd@192.168.12.11:8080"}
# #2.代理的处理器
# proxy_handler=urllib.request.ProxyHandler(money_proxy)
#
# #3.通过处理器创建opener
# opener = urllib.request.build_opener(proxy_handler)
# #4.open发送请求
# opener.open("http://www.baidu.com")
# #第二种方式发送付费的ip地址
use_name = "abcname"
pwd = "123456"
proxy_money = "123.158.63.130:8888"
#2.创建密码管理器,添加用户名和密码
password_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
#uri定位 uri>url
#url 资源定位符
password_manager.add_password(None,proxy_money,use_name,pwd)
#3.创建可以验证代理ip的处理器
handle_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)
#4.根据处理器创建opener
opener_auth = urllib.request.build_opener(handle_auth_proxy)
#5.发送请求
response = opener_auth.open("http://www.baidu.com")
print(response.read())
#爬取自己公司的数据,做数据分析
#admin
money_proxy_use()
访问内网
import urllib.request
def auth_nei_wang():
#1.用户名密码
user = "admin"
pwd = "adimin123"
nei_url = "http://192.168.179.66"
#2.创建密码管理器
pwd_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
pwd_manager.add_password(None,nei_url,user,pwd)
#创建认证处理器(requests)
auth_handler = urllib.request.HTTPBasicAuthHandler(pwd_manager)
opener = urllib.request.build_opener(auth_handler)
response = opener.open(nei_url)
print(response)
auth_nei_wang()
知识小结
1.创建request
request = urllib.request.Request(url)
2.动态添加用户代理
request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
3.获取请求头的信息(所有的头的信息)
request_headers = request.headers
print(request_headers)
4.第二种方式打印headers的信息
#注意点:首字母需要大写,其他字母都小写
request_headers = request.get_header("User-agent")
print(request_headers)
5.每次请求的浏览器都是不一样的
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50"
]
#每次请求的浏览器都是不一样的
random_user_agent = random.choice(user_agent_list)
6.为urlopen添加代理的功能
系统的urlopen并没有添加代理的功能所以需要我们自定义这个功能
安全 套接层 ssl第三方的CA数字证书
http–>80端口 和https–>443端口
urlopen为什么可以请求数据 handler处理器
自己的oppener请求数据
7.添加代理
免费代理的写法:
“http”:“http://ip地址:端口号” 例如
“http”:“http://120.77.249.46:8080”
写法二:
“http”:“120.77.249.46:8080”
付费代理的写法:
“http”:“账号”:密码@ip地址
“http”:“xiaoming”:123@115.12.44
8.IP分类
透明:对方知道真实的ip
匿名:对方不知道我们真实的ip,知道了你使用了代理
高匿:对方不知道我们真实的IP,也不知道我们使用了代理