python 中正则表达式的学习

最新推荐文章于 2024-01-26 14:48:55 发布

Autuming

最新推荐文章于 2024-01-26 14:48:55 发布

阅读量168

点赞数

分类专栏： python 文章标签：正则 python

本文链接：https://blog.csdn.net/renyuanfang/article/details/90244158

版权

python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

在做文本处理的时候，经常会使用正则表达式，每次使用的时候，都要使用搜索引擎，怎么样才能熟练掌握，提高自己开发的效率，故决定把正则表达式梳理一下，方便自己掌握

1.split

如果是单个分隔符，可以直接使用字符串的

s = "hello,csdn"
print(s.split(","))

多个分隔符使用正则表达式

import re

# 中文分句

doc = "厉害了！经参报道，近期，包括广东、北京、上海等多地都在密集出台新一轮促消费政策。业内指出，从这一轮的促消费政策来看，一个明显的特点是打造国际消费中心城市、步行街升级版、培育夜经济等成为多地的抓手，消费升级有了新路径、新平台。预计政策密集落地将为消费注入强心剂，从国家和地方层面将会有更多政策利好落地……不知道能不能超额完成？"

sents = re.split(r'。|？|！|；|……|\?|!|;',doc)

2.sub

精准替换直接使用 str.replace()

模糊替换，需要使用 re.sub()

def html_clean(text):
    """
    清理文本中的 html 格式
    """
    #替换 &nbsp；
    text = text.replace('& nbsp ;','')
    #替换 url
    text = re.sub(r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', text)
    # 替换 html标签
    text = re.sub(r'<[^>]+>', '', text)
    return text

Autuming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 中正则表达式的学习

在做文本处理的时候，经常会使用正则表达式，每次使用的时候，都要使用搜索引擎，怎么样才能熟练掌握，提高自己开发的效率，故决定把正则表达式梳理一下，方便自己掌握1.split如果是单个分隔符，可以直接使用字符串的s = "hello,csdn"print(s.split(","))多个分隔符使用正则表达式import re# 中文分句doc = "厉害了！经参...
复制链接

扫一扫