1.文本的词性标注
词性作为一种语义特征通常:名词 n 动词 v 副词 d 连词 c 形容词 a
通过使用自动标注器,完成文本的标注。
2.歧义词 -----汉字处理
按照偏正结构,汉字通常是形容词在前名词(中心词)在后,所以我们使用的方法通常是使文字和右边的结合看是否是中心词,然后再把左边 的看成修饰词
3.未登录词
在适用基于字典的算法中,未登录词就是没有被字典收录的词汇
通常的解决方法:
统计各个词汇的频率,并且 设置一个阈值e当超过阈值e的时候就将未登录词,则将其作一个字段切分的依据。
4.禁用此处理:
依据: 分词完成后,会发现文本中有狠多没有用的词汇,这个时候对其进行过滤,从而提高特征词获取的精度以及准确度
5.特征选取:
通过以上的那些步骤我们获得了特征集,而在特征集中的特征并不是每一个都用用,需要进行进一步的筛选,这个过程就就是特征提取
特征提取应当遵循的几个规则: