RESQUESTS

最新推荐文章于 2024-01-09 23:10:47 发布

太阳快上山

最新推荐文章于 2024-01-09 23:10:47 发布

阅读量442

点赞数

分类专栏： python 文章标签：爬虫 url

本文链接：https://blog.csdn.net/shuow3055/article/details/76215332

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

主要方法

requests.get()

r = requests.get(url)

r为response对象，Response对象包含爬虫返回的内容
response包含如下主要属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

r.raise_for_status()//如果状态不是200，产生request.HTTPError的异常

通用代码框架

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))