python爬虫（三）---正则表达式

最新推荐文章于 2024-08-10 23:14:03 发布

ForeverLyan

最新推荐文章于 2024-08-10 23:14:03 发布

阅读量148

点赞数

分类专栏： python爬虫文章标签： python 正则表达式

本文链接：https://blog.csdn.net/ForeverLyan/article/details/103620327

版权

本文介绍了数据的分类，包括结构化数据、半结构化数据和非结构化数据，重点讲解了JSON数据的解析方法和意义。接着，详细阐述了正则表达式的元字符，如匹配边界、重复次数的符号，以及Python中re模块的使用步骤和pattern对象的方法，如match方法。

摘要由CSDN通过智能技术生成

正则表达式
一、数据的分类

结构化数据
特点：数据以行为单位，每一个数据表示一个实体。每一行数据的属性都是一样的。
举例：关系型数据库中的表就是结构化数据。
处理方法：sql
半结构化数据
特点：结构化数据的另一种形式。他并不符合关系型数据的特点，不能用关系型模型来描述，但是这种数据包含相关标记，有用来分割语义元素以及字段进行分层的描述。因此也被称为自描述结构。
非结构化数据
特点：没有固定结构的数据
举例：文档、图片、音频、视频
处理方法：常常用二进制形式来做整体保存

二、json数据

json是什么语言的内容？
json是js语言中用来用字符串格式来保存对象和数组的一种数据结构。
json数据本质上是字符串
js中数组和对象：
js的数组：var array = {‘aa’,‘bb’,‘cc’} ----和python列表相对应
js的对象：var obj = {name:‘zhangsan’,age:10} —和python字典相对应
json数据的解析方法：
json模块：
对json字符串的操作“：
json.loads(json_str)—>python的list或者dict
json.dumps(python的list或者dict) —>json_str
------
对json文件的操作：
json.load(fp)—>从json文件中读出json数据，返回一个python的list或者dict

关注