Python数据挖掘:1.4预料数据化需要考虑的工作

原始语料数据化时需要考虑的工作
(1)基本目的:在将语料数据化的同时尽可能地保留有效信息
(2)分词:将原始文本拆分为有分析意义的最小信息单位
注:中文由于信息效率太高,在这方面存在很大障碍
(3)去除停用词:剔除无意义单词,减少无效信息
去除空白,去除标点符号等
(4)词根识别:中文不存在时态变化,基本无此问题
大小写转换
(5)同义词/近义词识别:很多工具都缺少这一部分功能
(6)术语识别:姓名识别、地理名称识别、专有名词识别等
可进一步附加术语信息,如性别、所在国家、所属亚型等。
(7)情感标注
(8)词性标注:按照名词、动词、副词等进行标注
SAS/TM可对中文TM直接提供该功能
中文的词性标注要复杂得多
(9)语法分析
(10)语义分析
例如:他差点被吓死/他差点没被吓死
中国队大胜日本队/中国队大败日本队
注意
语料数据化中保留的信息量决定了随后建模分析所能达到的最终高度!!!
本文是观看B站@就是老衲啊转发的视频整理所得

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值