2018-3-5(论文——网络中非结构信息的表示与应用)笔记二（歧义词，未登录词，禁用词）

最新推荐文章于 2021-06-28 15:22:28 发布

橘子甜不甜

最新推荐文章于 2021-06-28 15:22:28 发布

阅读量697

点赞数

分类专栏： 2018年目标以及每天的完成情况记录

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/luolang_103/article/details/79441468

版权

2018年目标以及每天的完成情况记录专栏收录该内容

120 篇文章 10 订阅

订阅专栏

1.文本的词性标注

词性作为一种语义特征通常：名词 n 动词 v 副词 d 连词 c 形容词 a

通过使用自动标注器，完成文本的标注。

2.歧义词 -----汉字处理

按照偏正结构，汉字通常是形容词在前名词（中心词）在后，所以我们使用的方法通常是使文字和右边的结合看是否是中心词，然后再把左边的看成修饰词

3.未登录词

在适用基于字典的算法中，未登录词就是没有被字典收录的词汇

通常的解决方法：

统计各个词汇的频率，并且设置一个阈值e当超过阈值e的时候就将未登录词，则将其作一个字段切分的依据。

4.禁用此处理：

依据：分词完成后，会发现文本中有狠多没有用的词汇，这个时候对其进行过滤，从而提高特征词获取的精度以及准确度

5.特征选取：

通过以上的那些步骤我们获得了特征集，而在特征集中的特征并不是每一个都用用，需要进行进一步的筛选，这个过程就就是特征提取

特征提取应当遵循的几个规则：

橘子甜不甜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。