NLP_chattot项目 数据预处理

四大方面
  通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。

1.数据洗清(不感兴趣的视为噪音的内容清洗删除):
      a.繁体转简体

      b. emjoi表情符以及各种特殊字符(参见百度贴吧类似)以及\n \t 空格符

      c.标点符号

      d.drop 句子中不包含中文的句子/ drop 3<长度<30的句子

2.分词(jieba)

3.词性标注:给每个词或者词语打词类标签,如形容词、动词、名词等,这样做可以让文本在后面的处理中融入更多有用的语言信息。但是文本分类可以不用关心词性问题,类似情感分析(个人助手)、知识推理(人物关系图谱)却是需要的。

4.去停用词:指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。但在情感分析中,语气词、感叹号是需要被保留的,因为对表示语气程度、感情色彩有一定的贡献和意义

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值