工作中常用的Regular Expression

为了工作方便(每次过一段时间要用re的时候都需要进行re复健),决定把一些常用的正则表达式记下来。

抽取Weibo中的Hashtag

1、不保留#
def hashtag(s):
	pattern = re.compile('(?:\#)([^\#][\u4e00-\u9fcc\S]*?[^\#])(?:\#)', re.U)
    return re.findall(pattern, s)

结果:
Hashtag Extraction

2、保留#
def hashtag(s):
	pattern = pattern = re.compile('((?:\#)[\u4e00-\u9fcc\S\s]*?(?:\#))', re.U)
    return re.findall(pattern, s)
s = '#罗云熙[超话]##罗云熙心跳源计划# [鲜花][鲜花]#谁治愈了罗云熙##悦薇水乳# @罗云熙Leo 罗先生节日快乐,组织快困死了。 \u200b'
# 结果如下:
['#罗云熙[超话]#', '#罗云熙心跳源计划#', '#谁治愈了罗云熙#', '#悦薇水乳#']

中文切字,英文切词

def split(s):
    reg = re.compile(r'[a-z]+|[\u4e00-\u9fcc]|[\d+(\.\d+)?]+', re.U)
    return re.findall(reg, s.lower())

结果:

a = 'D Rose 10男鞋籃球場上運動鞋'
b = '三叶草POD-S3.1男女鞋经典运动鞋休闲鞋'
# 结果如下:
['d', 'rose', '10', '男', '鞋', '籃', '球', '場', '上', '運', '動', '鞋']
['三', '叶', '草', 'pod', 's', '3.1', '男', '女', '鞋', '经', '典', '运', '动', '鞋', '休', '闲', '鞋']
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值