python网络爬虫学习第一天

最新推荐文章于 2024-10-08 12:37:10 发布

QCupin

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量376

点赞数

分类专栏：网络爬虫学习笔记文章标签： python

本文链接：https://blog.csdn.net/m0_50811067/article/details/124085334

版权

笔记同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

网络爬虫学习

1 篇文章 0 订阅

订阅专栏

安装requests库:win+R输入cmd打开命令行

C:\Users\QCupin>pip install requests

打开python 的IDLE环境，导包测试

>>>import requests
>>>r=requests.get("http://www.baidu.com")
>>>type(r)
<class 'requests.models.Response'>
>>>r.status_code  #状态码，200说明访问成功
200 
>>>r.encoding='utf-8'  #设置编码格式
>>>r.text    #显示网页内容

Requests库的get()方法
构造一个向服务器请求资源的requests对象，返回一个包含服务器资源的Response对象

属性	说明
r.apparent_encoding	从内容中分析出的相应内容编码方式
r.content	HTTP响应内容的二进制形式

爬取网页的通用代码框架
网络连接有风险，requests.get(url)并不是一定成立的，需要异常处理

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()   #如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
    
if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))