数据提取之正则_正则找到 data:{}-CSDN博客

本文链接：https://blog.csdn.net/ZY3099492099/article/details/84347019

re模块的常见方法

re.match（从头找一个）
re.search（找一个）
re.findall（找所有）
- 返回一个列表，没有就是空列表
- re.findall("\d","chuan1zhi2") >> ["1","2"]
re.sub（替换）
- re.sub("\d","_","chuan1zhi2") >> ["chuan_zhi_"]
re.compile（编译，提升匹配速度）
- 返回一个模型P，具有和re一样的方法，但是传递的参数不同
- 匹配模式需要传到compile中
```
p = re.compile("\d",re.S)
p.findall("chuan1zhi2")
```

匹配中文

在某些情况下，我们想匹配文本中的汉字，有一点需要注意的是，中文的 unicode 编码范围主要在 [u4e00-u9fa5]，这里说主要是因为这个范围并不完整，比如没有包括全角（中文）标点，不过，在大部分情况下，应该是够用的。

假设现在想把字符串 title = u'你好，hello，世界' 中的中文提取出来，可以这么做：

import re

title = u'你好，hello，世界'
pattern = re.compile(ur'[\u4e00-\u9fa5]+')
result = pattern.findall(title)

print result

# 注意点: 中文匹配 需要设置unicode字符才可以匹配

linux系统不需要u