快速清洗用于情感分类的微博数据

情感分类中的数据清洗

数据示例

  1. #春娇与志明#感觉…张志明好像…是个渣男🌚
  2. 剛剛喂藥就一小匙然後嗆到了,一直咳到臉嘟紅了我一直拍她背她也吐不出不停掙扎,心疼死我了
  3. 温馨提示:http://t.cn/A6PZeKw7 ,白岩松主持《新型冠状病毒肺炎》专题现场直播,邀请钟南山院士介绍疫情,有意者请届时收看。
  4. 回复@洋葱会是彩虹色吗:??赞成//@洋葱会是彩虹色吗:我求求您封了浙江吧浙江承受不住了
  5. 致敬[心][心]小凡也要做好防护措施哦//@Mr_凡先生:致敬[心]大家出门记得戴口罩

目的

1.保留话题与表情
2. 文本标准化之繁体转简体、全角转半角、英文转小写
3.去除链接、@xxx、email

代码

from harvesttext import HarvestText
import pyhanlp
ht = HarvestText()
CharTable = pyhanlp.JClass('com.hankcs.hanlp.dictionary.other.CharTable')
content = CharTable.convert(“#春娇与志明#感觉…张志明好像…是个渣男🌚”)  # 繁体 -> 简体,全角 -> 半角、大写 -> 小写
cleaned_content = ht.clean_text(content, emoji=False)  # 去除链接、@xxx、email
print(cleaned_content)

代码说明

请用如下命令安装harvesttext包,

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值