python爬虫利器之requests库的基本使用介绍

最新推荐文章于 2023-10-14 10:06:06 发布

python 筱水花

最新推荐文章于 2023-10-14 10:06:06 发布

阅读量131

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/javasdn/article/details/131215865

版权

文章介绍了在Python中使用requests库代替urllib进行HTTP请求的优势，并展示了如何设置HTTP代理，包括代理服务器、验证信息以及代理头，同时提到requests库还支持其他功能如不同请求方法、添加headers和处理cookie等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

在这里插入图片描述

python爬虫有比较多的库可以使用，最开始学习爬虫的时候是使用的 urllib 库，这个作为入门的工具还是不错的，对了解一些爬虫的基本理念，掌握爬虫爬取的流程有所帮助。但是入门之后，我们就需要学习一些更加高级的内容和工具来方便我们的爬取，所以今天就简单介绍一下 requests 库的基本用法。

requests是一个很实用的Python HTTP客户端库，爬虫和测试服务器响应数据时经常会用到，requests是Python语言的第三方的库，专门用于发送HTTP请求，使用起来比urllib简洁很多。这里我们简单的讲下在使用代理的时候是怎样实现的。

 #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

这里主要就和大家分享了下requests在使用代理时的示例，还有很多其他的基本用法，比如各种请求方式，添加heads信息、获取cookie、异常处理等我们可以下次继续为大家讲解。感兴趣的大家可以交流交流呀。