非常好理解的python re正则表达式入手

最新推荐文章于 2024-05-07 09:59:10 发布

pingzishinee

最新推荐文章于 2024-05-07 09:59:10 发布

阅读量1k

点赞数 1

分类专栏： python数据分析文章标签：正则表达式 python re pattern模式

本文链接：https://blog.csdn.net/u013317445/article/details/112603869

版权

python数据分析专栏收录该内容

65 篇文章 41 订阅

订阅专栏

本文通过三个案例介绍了正则表达式在处理字符串时的常见操作。案例一展示了如何剔除非中文字符和非中文、非英文、非数字字符；案例二讲解了如何判断字符串是否仅包含特定字符；案例三提到了移除表情包的方法。通过这些实例，读者可以深入理解re库的使用，包括re.compile()和re.sub()函数，以及match()和search()的区别。

摘要由CSDN通过智能技术生成

直接写例子，来入手正则。

案例一

1.去掉/剔除掉字符串中的某些特定字符

目标1：有一行字符串，去掉其中的非中文字符
实现1：keep_chinese()函数

目标2：有一行字符串，去掉其中的非中文、非英文、非数字字符
实现2：keep_chinese_and_num_and_eng()函数，用re.compile()和re.sub()

2.怎么实现

import re

def keep_chinese(line):
    pattern = re.compile(r'[^\u4e00-\u9fa5]') #匹配非中文的字符
    chinese = re.sub(pattern,'',line) #将非中文的替换为空字符
    return chinese

def keep_chinese_and_num_and_eng(line):
    """
    去除字符串中非中文、非数字、非英文的字符
    """
    pattern = re.compile(r'[^\u4e00-\u9fa5^a-z^A-Z^0-9]')#匹配非中文、非英文、非数字的字符
    new_line = re.sub(pattern, '', line) #将非...的字符替换为空字符
    return new_line

if __name__ == '__main__':
	line = "(2020, 001, '1号背诵《咏鹅》~~~鹅鹅鹅，曲项向天歌。白毛浮绿水，红掌拨清波。abc....')"
	uid = line.split(',')[0]
    fid = line.split(',')[1]
    content = line.split(',',2)[2]#注意，split可以设置分隔两次
    print(content)
    print('------')
#     new_content = keep_chinese(content)
    new_content = keep_chinese_and_num_and_eng(content)
    print(new_content)
    newline = uid + ',' + fid + ',' + new_content + '\n'

输出：1号背诵咏鹅鹅鹅鹅曲项向天歌白毛浮绿水红掌拨清波abc

3.从案例中学习

1、re库：正则匹配功能
2、re.compile(r'[^\u4e00-\u9fa5]') #匹配非中文的字符
re.compile(r'[^\u4e00-\u9fa5^a-z^A-Z^0-9]')#匹配非中文、非英文、非数字的字符
3、re.sub(pattern, '', line)#将非中文的替换为空字符

编译正则表达式：re.compile()
检索和替换：re.sub() 参数：pattern正则中的模式字符串，repl用来替换的字符串也可以是函数，string原字符串

4、pattern 模式
[^...]不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符
[0-9] 匹配任何数字。类似于 [0123456789]
[a-z]匹配任何小写字母
[a-zA-Z0-9]匹配任何字母及数字

案例二

1.确实字符串是否仅包含某些特定字符

目标：判断字符串是否仅包含大小写字母数字和“_”“-”。eg.“01-word” “01-03”
实现：is_special_str()函数，用re.match()

2.具体实现

# 功能：判断是否是这样一个字符串：仅包含大小写字母数字和"-""_"
def is_special_str(query):
    flag = False
    pattern = r'[\dA-Za-z\-\_]+$'
    result = re.match(pattern, query) 
    print(result) 
	# 字符串满足条件情况下：<_sre.SRE_Match object; span=(0, 7), match='01-word'> 类型：<class '_sre.SRE_Match'>
	# 不满足条件情况下：None
    if result:
        flag = True
        # 当result非None时，还能获取以下信息：
        print(result.group())
        print(result.span()) # (0,7) 匹配开始的（起始位置，终止位置）
        print(result.start()) # 0
        print(result.end()) # 7
	# else:
	    # print("不满足")
    return flag

if __name__ == "__main__":
    query = "01-word"
    # query = "01-word世界"
    if is_special_str(query):
        print("是")

3.案例学习

re.match(pattern, string, falgs)：
从头（注意是从0位置来开始匹配）匹配一个符合规则的字符串
匹配成功返回一个match object对象；不成功则返回None
注意：match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回None

pattern:正则模型
string:要匹配的字符串
falgs:匹配模式

match还可以这样用：

result = re.match("喜欢", "我喜欢你的信息素") # 匹配不到
result = re.match("喜欢", "喜欢你的信息素") # 匹配的到

re.search()就都可以：

result = re.search("喜欢", "我喜欢你的信息素") # 匹配的到
result = re.search("喜欢", "喜欢你的信息素") # 匹配的到

match()和search()的区别：
match（）函数只检测RE是不是在string的开始位置匹配
search() 会扫描整个string查找匹配

案例三

去掉字符串中的所有表情包

import emoji
emoji.demojize(str)

pingzishinee

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录