python爬虫小试牛刀(一)

大家好,今天和大家来聊一聊爬虫相关的内容。平时,我们都会使用浏览器去访问网络并获取信息,例如使用百度去检索我们需要的内容、使用淘宝去检索我们需要购买的商品。其实爬虫也是同样的原理,只不过是我们利用代码去代替浏览器,去做信息的检索与保存。

环境搭建

# 创建conda虚拟环境
#    -n:指定虚拟环境的名称
#    python=3.10:指定虚拟环境中python的版本

conda create -n spider python=3.10

在这里插入图片描述

安装成功后,会提示进入和退出虚拟环境的命令。如下图所示:
在这里插入图片描述

安装第三方爬虫库

这次我们先来了解一下python的网络请求库——requests,我们可以使用pip install requests进行安装。

首先进入进入虚拟环境,在虚拟环境中使用pip命令进行安装
在这里插入图片描述

信息爬取

简单来讲,爬虫程序其实分为四步
1)对目标网站发送请求(如百度:https://www.baidu.com/)
2)获取目标网站的请求信息(输入百度的网址后,浏览器会返回对应的页面,即响应页面)
3)数据的解析(获取响应页面中需要的数据)
4)数据持久化(数据的存储)

这里以百度为例,进行爬取演示

# 导入requests库
import requests

# 指定待爬取的URL地址
url = 'https://www.baidu.com/'

# 1)发送请求
# 这里使用requests库发生get请求
#   参数:待爬取的网址
#   返回值:响应对象
response = requests.get(url)

# 2)获取响应信息
html_source = response.content

# 这里将整个页面进行保存,所以不需要解析页面内容
# 4)数据存储
#    wb+:w表示写入,b表示以字节类型写入
with open('baidu.html','wb') as fp:
    fp.write(html_source)

执行完上述代码后,可以在当前文件夹下看到名为baidu.html的文件,使用浏览器可以打开,页面与百度搜索页面相同。
在这里插入图片描述

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

道人禅(armey)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值