原始语料数据化时需要考虑的工作
(1)基本目的:在将语料数据化的同时尽可能地保留有效信息
(2)分词:将原始文本拆分为有分析意义的最小信息单位
注:中文由于信息效率太高,在这方面存在很大障碍
(3)去除停用词:剔除无意义单词,减少无效信息
去除空白,去除标点符号等
(4)词根识别:中文不存在时态变化,基本无此问题
大小写转换
(5)同义词/近义词识别:很多工具都缺少这一部分功能
(6)术语识别:姓名识别、地理名称识别、专有名词识别等
可进一步附加术语信息,如性别、所在国家、所属亚型等。
(7)情感标注
(8)词性标注:按照名词、动词、副词等进行标注
SAS/TM可对中文TM直接提供该功能
中文的词性标注要复杂得多
(9)语法分析
(10)语义分析
例如:他差点被吓死/他差点没被吓死
中国队大胜日本队/中国队大败日本队
注意
语料数据化中保留的信息量决定了随后建模分析所能达到的最终高度!!!
本文是观看B站@就是老衲啊转发的视频整理所得
Python数据挖掘:1.4预料数据化需要考虑的工作
最新推荐文章于 2024-09-18 20:51:36 发布