搜索引擎与信息检索
ice110956
全新主页上线:www.huangwc.cn,本blog停止更新,欢迎来访。
展开
-
信息度量与KL距离
信息度量信息论中,把信息大小解释为其不确定度。如果一个事件必然发生,那么他没有不确定度,也就不包含信息。即信息=不确定度。KL距离KL距离与互信息等比较容易混淆,文章对比了几个相关的信息度量。KL距离与互信息在信息检索,自然语言处理等等领域也有相应的运用。这里通过KL距离的物理意义,以及一个简单的事例来说明KL距离在实际中的运用。原创 2013-12-09 10:20:21 · 12295 阅读 · 2 评论 -
信息理论与tf-idf
tf-idf是信息检索,搜索引擎中常见的基本算法。他基于词条频率,构造出正比于单文档中词条频率,反比与其他文档中频率的方法。这篇日志基于信息论中kL距离,互信息的知识,常识从概率角度解释tf-idf的理论依据。由于tf-idf提出是基于实际运用的,一些地方并不完全等于准确的概率模型。日志从准确概率模型出发,再得到近似概率模型的tf-idf方法。原创 2013-12-10 14:30:53 · 4073 阅读 · 0 评论 -
Google - Pagerank
上一篇blog以信息和概率的角度探讨了词条对于文档的权值。相应的算法也就是tf-idf。见blog:http://blog.csdn.net/ice110956/article/details/17243071在通过词条检索文档的模型中,我们假设每个文档出现的频率是近似相等的,或者与其词数成正比。其实也就是默认了其具有相同的重要性。而在web搜索中,每个web页面的重要性是不相等的。google基于超链接的pagerank算法,把互联网抽象为一个“random walk”,也就是一个马尔科夫随机场,原创 2013-12-13 09:56:22 · 1924 阅读 · 0 评论 -
距离与相似性度量
相关性是统计学上的概念.在机器学习中,经常要衡量两个变量的相关性,比如K-mean聚类算法等.这里做一个简单的小结.1,距离最常见的距离就是平面上两点间的距离,也就是简单的欧式距离.....2.相似性度量衡量两个变量的相关相似程度的方式.原创 2013-11-05 10:14:40 · 5595 阅读 · 0 评论