概念:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高
作用:模拟浏览器发请求
requests模块的编码流程:
(1)指定url
(2)发起请求
(3)获取响应数据
(4)持久化存储
环境安装:
在pycharm中 file->Settings->Project Interpreter 点图中的+号,在弹出来的页面搜索栏中输入requests 再点左下角的Install Package,出现Package "requests" installed successfully即可
实现编码:例如爬取河科大教育系统首页的页面数据
#导入资源,爬取河科大教育网站的数据
import requests
#1.指定url
if __name__=="__main__":
url='http://www.haust.edu.cn'
#2.发起请求,get方法会返回一个响应对象
response=requests.get(url=url)
#3.获取响应数据,text返回的是字符串形式的响应数据
page_text=response.text
print(page_text)
#4.持久化存储,将爬取的数据存放在hekeda.html文件中
with open('./hekeda.html','w',encoding='utf-8') as fp:
fp.write(page_text)
print("爬取数据结束")
爬取结果:
以及将结果数据保存在hekeda.html中