大家好,今天和大家来聊一聊爬虫相关的内容。平时,我们都会使用浏览器去访问网络并获取信息,例如使用百度去检索我们需要的内容、使用淘宝去检索我们需要购买的商品。其实爬虫也是同样的原理,只不过是我们利用代码去代替浏览器,去做信息的检索与保存。
环境搭建
# 创建conda虚拟环境
# -n:指定虚拟环境的名称
# python=3.10:指定虚拟环境中python的版本
conda create -n spider python=3.10
安装成功后,会提示进入和退出虚拟环境的命令。如下图所示:
安装第三方爬虫库
这次我们先来了解一下python的网络请求库——requests
,我们可以使用pip install requests
进行安装。
首先进入进入虚拟环境,在虚拟环境中使用pip
命令进行安装
信息爬取
简单来讲,爬虫程序其实分为四步
1)对目标网站发送请求(如百度:https://www.baidu.com/)
2)获取目标网站的请求信息(输入百度的网址后,浏览器会返回对应的页面,即响应页面)
3)数据的解析(获取响应页面中需要的数据)
4)数据持久化(数据的存储)
这里以百度为例,进行爬取演示
# 导入requests库
import requests
# 指定待爬取的URL地址
url = 'https://www.baidu.com/'
# 1)发送请求
# 这里使用requests库发生get请求
# 参数:待爬取的网址
# 返回值:响应对象
response = requests.get(url)
# 2)获取响应信息
html_source = response.content
# 这里将整个页面进行保存,所以不需要解析页面内容
# 4)数据存储
# wb+:w表示写入,b表示以字节类型写入
with open('baidu.html','wb') as fp:
fp.write(html_source)
执行完上述代码后,可以在当前文件夹下看到名为baidu.html
的文件,使用浏览器可以打开,页面与百度搜索页面相同。