1、中文分词领域中相较于分词歧义而言跟让人头疼的一个问题——未登录词。
问题:分词依赖词库,但是一些网络新词,机构名称等未登录词却不存在于词库中,这样一来,依赖于词库分词得到的结果并不是那么可靠。一种想法是,通过词的特征将词从语料中提取出来,对比词库得到新词。
但是怎样的文本片段才算一个词?
答:在考虑了词出现的频率的基础上还要综合考虑其内部凝固程度,自由程度。
2、由词的自由程度的考量(一个词得有很丰富的左邻字集合和右邻字集合)设计一个概念——信息熵
信息熵是关于一件事出现概率的函数,可以想到,一件事出现的概率越大,不确定性就越小,当你知道这件事一定发生的前提下你能够获取的信息就越少,反之,出现的概率越小,不确定性就越大,当你知道这件事发生的前提之下你能够获取的信息就越多。信息熵也直观的反应了时间的结果有多么的随机,即结果的不可预测性。
3、热度计算设计方法——贝叶斯平均
分词只是文本数据挖掘的前奏。在热点事件的分析中,首先第一点事件的热度怎么来得到?这里我们使用词的热度对应事件的热度,对于词的热度计算,在总词频小的词的处理上很难权衡,因为总词频小对某一时刻词频的占比影响很大,采取贝叶斯平均可以使得词频大的词在热度的计算上更具有优势
文章链接:点击打开链接