数据挖掘之相似性度量

本文探讨了数据挖掘中的相似性度量方法,包括TF-IDF、熵的概念及其在信息论中的作用,以及如何计算文本和文档的相似度。文章详细介绍了局部敏感Hash算法LSH和几种距离度量方式,阐述了查找相似项的处理流程,旨在帮助理解数据挖掘中的关键概念和技术。
摘要由CSDN通过智能技术生成

机器学习或数据挖掘,就是在数据中寻求答案的算法。

而寻求的答案就是训练完成的数据模型。


大部分的数据建模方法都属于这两种:

1) 数据汇总,对数据进行 简洁的近似描述

如pagerank、聚类

2) 特征抽取

如频繁项集(同时频繁出现的元素子集)、相似项(共同元素比例较高的集合对)


在机器学习或数据挖掘之前,还需要概率,或信息论的一些相关知识,现实世界的对象需要转换为计算机的度量方式。

1. TF.IDF

2. 熵的相关概念

3. 相似度的度量及计算

4. 对文本相似度的分析

5. 局部敏感Hash的分析LSH

6. 查找相似项的处理流程

7. 几种距离度量方式


相关知识:

1. TF.IDF

文本分类时,一个重要指标:TF.IDF,分为两个阶段: 同一文档中的统计;以文档为粒度,所有文档的统计。

TF: term frequency 词项频率,同一篇文档中,所有词项出现频率的 归一化

IDF:inverse document frequency 逆文档频率,所有文档数目,与某一词出现的文档的数目 的比率关系

其中的关系:

不仅仅是一个公式,里面包含了信息论中熵的概念。IDF就是一个特定条件下关键词的概率分布的交叉熵。应用了对数运算。


2. 熵的相关概念

 熵,表示信息量的大小,与概率相关。随机      变量的不确定性越大,即概率小,其熵也就越大,将其搞清楚,所需的信息量也就越大。 -Pi * log(2, Pi) 求和。一个系统越混乱,则每个变量的概率越小,其熵也就越大。


信息论在通信编码的表示也是一样的,一个变量,在系统中的概率越小,其编码也就越长,因为短的编码要留给概率大的变量。即熵越大,其编码也就越长,这样压缩的效率就比较高。发送一段信息,其需要的编码长度(二进制),也就是 -Pi * log(2, Pi) 求和。或者,可以说,熵越大,信息量越大,一个概率较低的词,可能就是系统信息比较关键的词。


互信息:两个随机    变量的相关/依赖程度,可以用来解释一个变量已知时,另外一个变量的不确定的变化。即不确定信息的减少量。

自信息:一个随机变量(信源)发出的信息,这个信息所带来的信息量的度量。一次事件发生的提供的信息量-log(2, Pi),有时与熵的含义相同(当事件只发生一次时

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值