利用Python爬虫获取xx数据

最新推荐文章于 2024-07-12 17:01:23 发布

程序猿追

最新推荐文章于 2024-07-12 17:01:23 发布

阅读量6.9k

点赞数 28

分类专栏： python 文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aasd23/article/details/136854328

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

二、requests 请求库

1、requests 安装

2、requests 的基本使用

三、Beautiful Soup

1、Beautiful Soup 安装

2、BeautifulSoup对象介绍与创建

3、BeautifulSoup对象的find方法

一、前言

什么是爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，获取响应数据，一种按照一定的规则，自动地抓取万维网信息的程序或脚本。

他的作用是什么？

从万维网上获取, 我们需要的信息。

二、requests 请求库

requests 是一个基于 Python 的 HTTP 请求库，它简化了发送 HTTP 请求和处理响应的过程。使用 requests 库，开发者可以轻松地发送 GET、POST、PUT、DELETE 等类型的请求，并处理返回的数据。requests 库提供了简洁易用的 API 接口，使得进行 HTTP 请求变得非常方便。它支持 SSL、连接池、Cookie 持久化、代理、认证等功能，是 Python 中常用的 HTTP 请求库之一，广泛应用于网络爬虫、Web 开发等领域。

1、requests 安装

在终端(命令行工具) 运行这个简单命令即可 “pip install requests”。

注意：
如果你要安装Python虚拟环境中, 先进入虚拟机环境再执行上述命令
如果系统中既安装了Python2 又安装了 Python3, 需要安装Python3环境中: pip3 install requests

2、requests 的基本使用

导入模块、发送get请求, 获取响应: 、从响应中获取数据:

这串代码的作用是什么呢？常见属性又是什么呢？

response.text : 响应体 str类型
response.ecoding : 二进制转换字符使用的编码
respones.content: 响应体 bytes类型

三、Beautiful Soup

Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 库。它可以帮助开发者从网页中提取数据，进行信息检索和数据挖掘等操作。通过 Beautiful Soup，开发者可以方便地遍历文档树、搜索特定内容，并提取所需信息。这个库提供了简单又灵活的方式来处理复杂的 HTML 和 XML 结构，是 Python 爬虫和数据抓取中常用的工具之一。

1、Beautiful Soup 安装

# 安装 Beautiful Soup 4

pip install bs4

# 安装 lxml

pip install lxml

2、BeautifulSoup对象介绍与创建

BeautifulSoup对象: 代表要解析整个文档树,

它支持遍历文档树和搜索文档树中描述的大部分的方法.

创建 BeautifulSoup 对象

注意：可能存在警告问题

解决警告问题

3、BeautifulSoup对象的find方法

find (self, name=None, attrs={}, recursive=True, text=None, **kwargs)

参数

u name : 标签名

u attrs : 属性字典

u recursive : 是否递归循环查找

u text : 根据文本内容查找

返回

u 查找到的第一个元素对象

四、总结

利用Python爬虫获取xx数据前置环境要求完成，下一篇就开始正片了。

关注

28
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄4年

全栈领域新星创作者

189
原创

6402
点赞

1万+
收藏

5万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

ESP8266学习记录
卓致文: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
ESP8266学习记录
软工菜鸡: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
JDBC 连接 MySQL
七杯抹茶星冰乐.: 这个idea是哪个版本呀
ESP8266学习记录
勇敢滴勇: 写的很深入，仔细。博主的文章让我对这个主题有了全新的认识，细节描写非常到位，期待博主未来能够持续分享更多好文，同时也希望能够得到博主的指导，共同进步！同时也希望可以来我博客指导我一番
ESP8266学习记录
是代码菌: 博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，每篇博文都是知识的瑰宝，我真的很喜欢你的风格，你的博客内容深入浅出，总是让我不再感到学习的困难，期待你的下一次精彩分享

最新文章

2024

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序猿追 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。