错误提示:send request timeout_Python爬虫入门-request库

最新推荐文章于 2024-01-19 22:00:51 发布

LilacYue

最新推荐文章于 2024-01-19 22:00:51 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/weixin_35540825/article/details/113328981

版权

requests库网络爬虫 HTTP请求异常处理编码方式

关键词由CSDN通过智能技术生成

对于网络爬虫，我们最常用的应该是request库，首先熟悉一下request库的基本用法：

import requests

# requests库的基本使用方法
# requests.request()获取HTML网页的方法
"""
requests.get(url, params=None, **kwargs)获取网页的主要方法，params：url中的额外参数，可选，**kwargs: 12个控制访问的参数
requests.head()获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求，对应于HTTP的DELETE
"""
r = requests.get('http://www.baidu.com')
"""
r.status_code：HTTP请求的返回状态，200表示连接成功，404表示失败
r.text：HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding：从HTTP header中猜测的响应内容编码方式，不一定是内容的编码方式
r.apparent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）
r.content：HTTP响应内容的二进制形式
"""
print('status_code:', r.status_code)
print('text:', r.text)
print('encoding', r.encoding)
print('apparent_encoding', r.apparent_encoding)
r.encoding = 'utf-8'
print('text:', r.text)

熟悉request库之后，我们应该掌握一个用request库建立的爬取网页的通用代码框架

# 爬取网页的通用代码框架
"""
requests.ConnectionError: 网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError: HTTP错误异常
requests.URLRequired: URL缺失异常
requests.TooManyRedirects: 超过最大重定向次数，产生重定向异常
requests.ConnectTimeout: 连接远程服务器超时异常
requests.Timeout: 请求URL超时，产生超时异常
"""

import requests


# 通用代码框架
def get_htmt_text(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '产生异常'


# 主函数

if __name__ == '__main__':
    url = 'www.baidu.com'
    print(get_htmt_text(url))

LilacYue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
错误提示:send request timeout_Python爬虫入门-request库

对于网络爬虫，我们最常用的应该是request库，首先熟悉一下request库的基本用法：import requests# requests库的基本使用方法# requests.request()获取HTML网页的方法"""requests.get(url, params=None, **kwargs)获取网页的主要方法，params：url中的额外参数，可选，**kwargs: 12个...
复制链接

扫一扫