廖雪峰爬虫第二节

最新推荐文章于 2021-05-08 21:32:22 发布

Sparky*

最新推荐文章于 2021-05-08 21:32:22 发布

阅读量456

点赞数

分类专栏：廖雪峰爬虫笔记

本文链接：https://blog.csdn.net/weixin_43362002/article/details/105892612

版权

廖雪峰爬虫笔记专栏收录该内容

12 篇文章 4 订阅

订阅专栏

文章目录

添加并查看用户代理
随机用不同用户访问浏览器
为urlopen添加代理的功能
添加一个ip地址
添加多个ip地址
付费的ip代理请求
访问内网
知识小结

添加并查看用户代理


import urllib.request

def load_baidu():
    url= "https://www.baidu.com"
    header = {
        #浏览器的版本
        "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",
        # "haha":"hehe"
    }


    #创建请求对象
    request = urllib.request.Request(url)
	#request = urllib.request.Request(url,headers=header)
    #动态的去添加head的信息
    request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
    #请求网络数据(不在此处增加请求头信息因为此方法系统没有提供参数)
    response = urllib.request.urlopen(request)
    print(response)
    data = response.read().decode("utf-8")

    #获取到完整的url
    final_url = request.get_full_url()
    print(final_url)

    #响应头
    # print(response.headers)
    #获取请求头的信息(所有的头的信息)
    # request_headers = request.headers
    # print(request_headers)
    #(2)第二种方式打印headers的信息
    #注意点:首字母需要大写,其他字母都小写
    request_headers = request.get_header("User-agent")
    # print(request_headers)
    with open("02header.html","w")as f:
        f.write(data)



load_baidu()

随机用不同用户访问浏览器

import urllib.request
import random

def load_baidu():

    url = "http://www.baidu.com"
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50"

    ]
    #每次请求的浏览器都是不一样的
    random_user_agent = random.choice(user_agent_list)

    request = urllib.request.Request(url)

    #增加对应的请求头信息(user_agent)
    request.add_header("User-Agent",random_user_agent)

    #请求数据
    response = urllib.request.urlopen(request)
    #请求头的信息
    print(request.get_header("User-agent"))

load_baidu()

为urlopen添加代理的功能

import urllib.request

def handler_openner():

    #系统的urlopen并没有添加代理的功能所以需要我们自定义这个功能
    #安全 套接层 ssl第三方的CA数字证书
    #http80端口# 和https443
    #urlopen为什么可以请求数据 handler处理器
    #自己的oppener请求数据

    # urllib.request.urlopen()
    url = "https://blog.csdn.net/weixin_43362002/article/details/104658199"

    #创建自己的处理器
    handler = urllib.request.HTTPHandler()
    #创建自己的oppener
    opener=urllib.request.build_opener(handler)
    #用自己创建的opener调用open方法请求数据
    response = opener.open(url)
    # data = response.read()
    data = response.read().decode("utf-8")


    with open("05header.html", "w",encoding='utf-8')as f:
        f.write(data)

handler_openner()

添加一个ip地址

import urllib.request
def create_proxy_handler():
    url = "https://blog.csdn.net/weixin_43362002/article/details/104658199"

    #添加代理
    proxy = {
        #免费的写法
        "http":"http://120.77.249.46:8080"
        # "http":"120.77.249.46:8080"
        #付费的代理
        # "http":"xiaoming":123@115.12.44
    }
    #代理处理器
    proxy_handler = urllib.request.ProxyHandler(proxy)

    #创建自己opener
    opener = urllib.request.build_opener(proxy_handler)
    #拿着代理ip去发送请求
    response = opener.open(url)
    data = response.read().decode("utf-8")

    with open("03header.html", "w",encoding='utf-8')as f:
        f.write(data)

create_proxy_handler()

添加多个ip地址

import urllib.request

def proxy_user():

    proxy_list = [
        {"https": "106.75.226.36:808"},
        {"https":"120.77.249.46:8080"},
        {"https":"61.135.217.7:80"},
        {"https":"125.70.13.77:8080"},
        {"https":"118.190.95.35:9001"}
    ]
    for proxy in proxy_list:
        print(proxy)
        #利用遍历出来的ip创建处理器
        proxy_handler = urllib.request.ProxyHandler(proxy)
        #创建opener
        opener = urllib.request.build_opener(proxy_handler)

        try:
            data = opener.open("http://www.baidu.com",timeout=1)

            haha = data.read()
            print(haha)
        except Exception as e:
            print(e)

proxy_user()

付费的ip代理请求

import urllib.request

#付费的代理发送
#1.用户名密码(带着)
#通过验证的处理器来发送

def money_proxy_use():
    # #第一种方式付费代理发送请求
    # #1.代理ip
    # money_proxy ={"http":"username:pwd@192.168.12.11:8080"}
    # #2.代理的处理器
    # proxy_handler=urllib.request.ProxyHandler(money_proxy)
    #
    # #3.通过处理器创建opener
    # opener = urllib.request.build_opener(proxy_handler)
    # #4.open发送请求
    # opener.open("http://www.baidu.com")
    # #第二种方式发送付费的ip地址
    use_name = "abcname"
    pwd = "123456"
    proxy_money = "123.158.63.130:8888"
    #2.创建密码管理器,添加用户名和密码
    password_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
    #uri定位 uri>url
    #url 资源定位符
    password_manager.add_password(None,proxy_money,use_name,pwd)
    #3.创建可以验证代理ip的处理器
    handle_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)
    #4.根据处理器创建opener
    opener_auth = urllib.request.build_opener(handle_auth_proxy)
    #5.发送请求
    response = opener_auth.open("http://www.baidu.com")
    print(response.read())

    #爬取自己公司的数据,做数据分析
    #admin

money_proxy_use()

访问内网

import urllib.request

def auth_nei_wang():
    #1.用户名密码
    user = "admin"
    pwd = "adimin123"
    nei_url = "http://192.168.179.66"


    #2.创建密码管理器
    pwd_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()

    pwd_manager.add_password(None,nei_url,user,pwd)

    #创建认证处理器(requests)
    auth_handler = urllib.request.HTTPBasicAuthHandler(pwd_manager)

    opener = urllib.request.build_opener(auth_handler)

    response = opener.open(nei_url)
    print(response)


auth_nei_wang()

知识小结

1.创建request

request = urllib.request.Request(url)

2.动态添加用户代理

request.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")

3.获取请求头的信息(所有的头的信息)

request_headers = request.headers
print(request_headers)

4.第二种方式打印headers的信息

#注意点:首字母需要大写,其他字母都小写
request_headers = request.get_header("User-agent")
print(request_headers)

5.每次请求的浏览器都是不一样的

user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
        "Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50"

    ]
#每次请求的浏览器都是不一样的
random_user_agent = random.choice(user_agent_list)

6.为urlopen添加代理的功能
系统的urlopen并没有添加代理的功能所以需要我们自定义这个功能
安全套接层 ssl第三方的CA数字证书
http–>80端口和https–>443端口
urlopen为什么可以请求数据 handler处理器
自己的oppener请求数据
7.添加代理
免费代理的写法：
“http”:“http://ip地址：端口号” 例如