python 中正则表达式的学习

在做文本处理的时候,经常会使用正则表达式,每次使用的时候,都要使用搜索引擎,怎么样才能熟练掌握,提高自己开发的效率,故决定 把正则表达式梳理一下,方便自己掌握

 1.split

如果是单个分隔符,可以直接使用字符串的

s = "hello,csdn"
print(s.split(","))

多个分隔符使用正则表达式

import re

# 中文分句

doc = "厉害了!经参报道,近期,包括广东、北京、上海等多地都在密集出台新一轮促消费政策。业内指出,从这一轮的促消费政策来看,一个明显的特点是打造国际消费中心城市、步行街升级版、培育夜经济等成为多地的抓手,消费升级有了新路径、新平台。预计政策密集落地将为消费注入强心剂,从国家和地方层面将会有更多政策利好落地……不知道能不能超额完成?"

sents = re.split(r'。|?|!|;|……|\?|!|;',doc)

2.sub

精准替换 直接使用 str.replace()

模糊替换,需要使用 re.sub()

def html_clean(text):
    """
    清理文本中的 html 格式
    """
    #替换  
    text = text.replace('& nbsp ;','')
    #替换 url
    text = re.sub(r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', text)
    # 替换 html标签
    text = re.sub(r'<[^>]+>', '', text)
    return text

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值