数据挖掘
文章平均质量分 78
Valar_Morghulis
Open your world
展开
-
基本Kmeans算法介绍及其实现
原文1.基本Kmeans算法[1][cpp] view plaincopy选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录转载 2014-08-04 09:49:43 · 663 阅读 · 0 评论 -
K-means聚类算法
聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。 在聚类问题中,给我们转载 2014-08-04 09:59:06 · 498 阅读 · 0 评论 -
Mahout-DistanceMeasure (相似度计算)
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量, 1.欧几里得距离(Euclidean distance)-Euclidean转载 2014-08-04 10:28:31 · 570 阅读 · 0 评论 -
向量空间模型(VSM)在文档相似度计算上的简单介绍
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。统计所得的词频表(杜撰的,为了便于演示用法)如下: w1w2w3w4转载 2014-08-04 10:48:26 · 668 阅读 · 0 评论 -
改进后的向量空间模型(VSM)
除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是:不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton,1969;Salton,1970b]分别采用权重自动赋值与人工赋值方法计算相似度,然后进行查询比较。实验结果表原创 2014-08-04 10:52:09 · 2537 阅读 · 1 评论 -
Machine_learning---Linear Regression
一、算法实现由前面的理论,我们知道了用梯度下降解决线性回归的公式:梯度下降解决线性回归思路:算法实现:ComputeCost函数:[plain] view plaincopyfunction J = computeCost(X, y原创 2014-10-17 10:16:04 · 554 阅读 · 0 评论 -
深入浅出K-Means算法
这篇讲的比其他的好得多,Mark起来。原创 2014-08-04 10:09:17 · 528 阅读 · 0 评论