Python爬虫(九)_非结构化数据与结构化数据

python 筱水花

于 2023-08-10 07:00:00 发布

阅读量204

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javasdn/article/details/132189133

版权

爬虫的一个重要步骤就是页面解析与数据提取。

页面解析与数据提取

实际上爬虫一共就四个主要步骤：

定（要知道你准备在哪个范围或者网站去搜索）
爬（将所有的网站的内容全部爬下来）
取（分析数据，去掉对我们没用处的数据）
存（按照我们想要的方式存储和使用）
表（可以根据数据的类型通过一些图标展示）

以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。

数据，可分为非结构化数据和结构化数据

非结构化数据：先有数据，再有结构
结构化数据：先有结构，再有数据
不同类型的数据，我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式Python正则表达式

HTML文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON文件

JSON Path
转化为Python类型进行操作（json类）

XML文件

转化为Python类型（xmltodict）
XPath
CSS选择器
正则表达式

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。