2018-3-5(论文——网络中非结构信息的表示与应用)笔记二 (歧义词,未登录词,禁用词)

1.文本的词性标注

词性作为一种语义特征通常:名词  n         动词  v       副词 d    连词  c    形容词 a

通过使用自动标注器,完成文本的标注。    

2.歧义词    -----汉字处理


按照偏正结构,汉字通常是形容词在前名词(中心词)在后,所以我们使用的方法通常是使文字和右边的结合看是否是中心词,然后再把左边 的看成修饰词

3.未登录词     

在适用基于字典的算法中,未登录词就是没有被字典收录的词汇

通常的解决方法:

统计各个词汇的频率,并且 设置一个阈值e当超过阈值e的时候就将未登录词,则将其作一个字段切分的依据。


4.禁用此处理:

依据:   分词完成后,会发现文本中有狠多没有用的词汇,这个时候对其进行过滤,从而提高特征词获取的精度以及准确度


5.特征选取:

通过以上的那些步骤我们获得了特征集,而在特征集中的特征并不是每一个都用用,需要进行进一步的筛选,这个过程就就是特征提取

特征提取应当遵循的几个规则:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值