情感分类中的数据清洗
数据示例
- #春娇与志明#感觉…张志明好像…是个渣男🌚
- 剛剛喂藥就一小匙然後嗆到了,一直咳到臉嘟紅了我一直拍她背她也吐不出不停掙扎,心疼死我了
- 温馨提示:http://t.cn/A6PZeKw7 ,白岩松主持《新型冠状病毒肺炎》专题现场直播,邀请钟南山院士介绍疫情,有意者请届时收看。
- 回复@洋葱会是彩虹色吗:??赞成//@洋葱会是彩虹色吗:我求求您封了浙江吧浙江承受不住了
- 致敬[心][心]小凡也要做好防护措施哦//@Mr_凡先生:致敬[心]大家出门记得戴口罩
目的
1.保留话题与表情
2. 文本标准化之繁体转简体、全角转半角、英文转小写
3.去除链接、@xxx、email
代码
from harvesttext import HarvestText
import pyhanlp
ht = HarvestText()
CharTable = pyhanlp.JClass('com.hankcs.hanlp.dictionary.other.CharTable')
content = CharTable.convert(“#春娇与志明#感觉…张志明好像…是个渣男🌚”) # 繁体 -> 简体,全角 -> 半角、大写 -> 小写
cleaned_content = ht.clean_text(content, emoji=False) # 去除链接、@xxx、email
print(cleaned_content)
代码说明
请用如下命令安装harvesttext包,