requests模块
1.概念:
requests模块是python中原生的一款基于网络请求的模块,功能非常的强大,功能非常强大,简单便捷,效率极高。
2.作用:
模拟浏览器发送请求。
3.如何使用(requests模块的编码流程步骤):
-(1)指定一个网址 url
-(2)发送请求 get or post
-(3)获取响应数据 response
-(4)持久化存储 一般写入保存
4.环境安装
在pycharm 的终端 进行安装 代码如下:
pip install requests
或者在pycharm的设置里找到python解释器,在这里进行安装,点击加号,然后搜索requests进行安装。
5.实战编码
-需求:爬取搜狗首页的页面数据。
代码如下:
import requests
#指定 url
url = 'https://www.sogou.com/'
#发起请求 这里使用 get 请求 get 请求会返回一个响应对象
#获取响应数据
response = requests.get(url=url)
#获取响应数据.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
#持久化保存数据
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print("爬取数据结束!")
爬取后,目录里会出现一个html文件。
点击进去,在右上角会有一个html文件的打开方式。该文件和代码读取打印的运行结果是一致的。
你也可以使用这个方法去爬取百度的网页源码进行尝试!!!后续我们会讲解如何对爬取的数据进行处理等操作。