文本数据挖掘博客摘录

最新推荐文章于 2024-01-06 07:30:00 发布

Qzzzzm

最新推荐文章于 2024-01-06 07:30:00 发布

阅读量214

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25408127/article/details/80425192

版权

1、中文分词领域中相较于分词歧义而言跟让人头疼的一个问题——未登录词。

问题：分词依赖词库，但是一些网络新词，机构名称等未登录词却不存在于词库中，这样一来，依赖于词库分词得到的结果并不是那么可靠。一种想法是，通过词的特征将词从语料中提取出来，对比词库得到新词。

但是怎样的文本片段才算一个词？

答：在考虑了词出现的频率的基础上还要综合考虑其内部凝固程度，自由程度。

2、由词的自由程度的考量（一个词得有很丰富的左邻字集合和右邻字集合）设计一个概念——信息熵

信息熵是关于一件事出现概率的函数，可以想到，一件事出现的概率越大，不确定性就越小，当你知道这件事一定发生的前提下你能够获取的信息就越少，反之，出现的概率越小，不确定性就越大，当你知道这件事发生的前提之下你能够获取的信息就越多。信息熵也直观的反应了时间的结果有多么的随机，即结果的不可预测性。

3、热度计算设计方法——贝叶斯平均

分词只是文本数据挖掘的前奏。在热点事件的分析中，首先第一点事件的热度怎么来得到？这里我们使用词的热度对应事件的热度，对于词的热度计算，在总词频小的词的处理上很难权衡，因为总词频小对某一时刻词频的占比影响很大，采取贝叶斯平均可以使得词频大的词在热度的计算上更具有优势

文章链接：点击打开链接

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本数据挖掘博客摘录

1、中文分词领域中相较于分词歧义而言跟让人头疼的一个问题——未登录词。问题：分词依赖词库，但是一些网络新词，机构名称等未登录词却不存在于词库中，这样一来，依赖于词库分词得到的结果并不是那么可靠。一种想法是，通过词的特征将词从语料中提取出来，对比词库得到新词。但是怎样的文本片段才算一个词？答：在考虑了词出现的频率的基础上还要综合考虑其内部凝固程度，自由程度。2、由词的自由程度的考量（一个词得有很丰富...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。