python爬虫小试牛刀（一）

最新推荐文章于 2024-08-31 21:39:38 发布

道人禅(armey)

最新推荐文章于 2024-08-31 21:39:38 发布

阅读量299

点赞数 6

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/kiwi_vc/article/details/137748631

版权

大家好，今天和大家来聊一聊爬虫相关的内容。平时，我们都会使用浏览器去访问网络并获取信息，例如使用百度去检索我们需要的内容、使用淘宝去检索我们需要购买的商品。其实爬虫也是同样的原理，只不过是我们利用代码去代替浏览器，去做信息的检索与保存。

环境搭建

# 创建conda虚拟环境
#    -n:指定虚拟环境的名称
#    python=3.10:指定虚拟环境中python的版本

conda create -n spider python=3.10

在这里插入图片描述

安装成功后，会提示进入和退出虚拟环境的命令。如下图所示：
在这里插入图片描述

安装第三方爬虫库

这次我们先来了解一下python的网络请求库——requests，我们可以使用pip install requests进行安装。

首先进入进入虚拟环境，在虚拟环境中使用pip命令进行安装
在这里插入图片描述

信息爬取

简单来讲，爬虫程序其实分为四步
1）对目标网站发送请求（如百度：https://www.baidu.com/）
2）获取目标网站的请求信息（输入百度的网址后，浏览器会返回对应的页面，即响应页面）
3）数据的解析（获取响应页面中需要的数据）
4）数据持久化（数据的存储）

这里以百度为例，进行爬取演示

# 导入requests库
import requests

# 指定待爬取的URL地址
url = 'https://www.baidu.com/'

# 1）发送请求
# 这里使用requests库发生get请求
#   参数：待爬取的网址
#   返回值：响应对象
response = requests.get(url)

# 2）获取响应信息
html_source = response.content

# 这里将整个页面进行保存，所以不需要解析页面内容
# 4）数据存储
#    wb+：w表示写入，b表示以字节类型写入
with open('baidu.html','wb') as fp:
    fp.write(html_source)

执行完上述代码后，可以在当前文件夹下看到名为baidu.html的文件，使用浏览器可以打开，页面与百度搜索页面相同。
在这里插入图片描述

道人禅(armey)

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫小试牛刀（一）

大家好，今天和大家来聊一聊爬虫相关的内容。平时，我们都会使用浏览器去访问网络并获取信息，例如使用百度去检索我们需要的内容、使用淘宝去检索我们需要购买的商品。其实爬虫也是同样的原理，只不过是我们利用代码去代替浏览器，去做信息的检索与保存。
复制链接

扫一扫