西北乱跑娃 --- python正则匹配中文以及数字和标点

很多朋友在做爬虫和数据采集的时候会遇见字符中存在很多的特殊字符,影响数据的质量。今天给大家写一段代码用于数据清洗:

方法一:

info = ''
str = '<@ba.rem>可以在下列状态和初始状态间切换:</>\n攻击范围<@ba.vdown>缩小</>,防御力<@ba.vup>+{0.35}</>,每秒恢复最大生命的<@ba.vup>{HP_RECOVERY_PER_SEC_BY_MAX_HP_RATIO:0.0%}</>'.replace('<@ba.rem>', '').replace('<@ba.vdown>', '').replace('<@ba.vup>', '')
for n in range(0, len(str)-1):
    if '\u4e00' <= str[n] <= '\u9fff' or str[n] in ':,,:0123456789.%':
        info += str[n]
print(info)

输出结果:

可以在下列状态和初始状态间切换:攻击范围缩小,防御力0.35,每秒恢复最大生命的:0.0%

此程序是根据下标提取出每一个字符,对字符进行中文验证和符号验证。

方法二:

去掉所有表情包

pip install emoji

import emoji
emoji.demojize(str)

方法三:

去除所有非汉子的文本,并将繁体转化为简体

pip install zhconv

from re import sub
import zhconv,emoji
hans = sub("[^\u4e00-\u9fa5]", '', zhconv.convert(str, 'zh-hans'))
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

西北乱跑娃

万水千山总是情,犒赏一下行不行

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值