文本数据挖掘博客 摘录

1、中文分词领域中相较于分词歧义而言跟让人头疼的一个问题——未登录词。

问题:分词依赖词库,但是一些网络新词,机构名称等未登录词却不存在于词库中,这样一来,依赖于词库分词得到的结果并不是那么可靠。一种想法是,通过词的特征将词从语料中提取出来,对比词库得到新词。

但是怎样的文本片段才算一个词?

答:在考虑了词出现的频率的基础上还要综合考虑其内部凝固程度,自由程度。


2、由词的自由程度的考量(一个词得有很丰富的左邻字集合和右邻字集合)设计一个概念——信息熵

信息熵是关于一件事出现概率的函数,可以想到,一件事出现的概率越大,不确定性就越小,当你知道这件事一定发生的前提下你能够获取的信息就越少,反之,出现的概率越小,不确定性就越大,当你知道这件事发生的前提之下你能够获取的信息就越多。信息熵也直观的反应了时间的结果有多么的随机,即结果的不可预测性。


3、热度计算设计方法——贝叶斯平均

分词只是文本数据挖掘的前奏。在热点事件的分析中,首先第一点事件的热度怎么来得到?这里我们使用词的热度对应事件的热度,对于词的热度计算,在总词频小的词的处理上很难权衡,因为总词频小对某一时刻词频的占比影响很大,采取贝叶斯平均可以使得词频大的词在热度的计算上更具有优势


文章链接:点击打开链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值