数据挖掘
文章平均质量分 81
上善之若水
这个作者很懒,什么都没留下…
展开
-
数据挖掘中所需的概率论与数理统计知识、上
数据挖掘中所需的概率论与数理统计知识、上 (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统转载 2014-01-05 23:12:31 · 1465 阅读 · 0 评论 -
基本Kmeans算法介绍及其实现(转载)
1.基本Kmeans算法[1] 选择K个点作为初始质心 repeat 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 until 簇不发生变化或达到最大迭代次数 时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数 空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数 2.转载 2014-01-06 17:03:17 · 892 阅读 · 0 评论 -
KMeans聚类算法(转载)
KMeans算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 k-means 算法基本步骤 (1) 从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2) 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离转载 2014-01-07 12:16:03 · 882 阅读 · 0 评论 -
Weka中的特征选择(Attribute selection)
按照http://weka.wiki.sourceforge.net/Use+Weka+in+your+Java+code的说法,在使用weka进行分类时,其实没有必要在代码中直接使用特征选择类,因为已经有meta-classifier和filter可以进行特征选择。 Weka里有个称为AttributeSelectedClassifier的带有特征选择的分类器,和一个称为GreedySte转载 2014-01-17 14:26:23 · 11084 阅读 · 0 评论 -
各种聚类算法的比较
聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。 1、层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距转载 2014-03-03 17:48:01 · 3639 阅读 · 0 评论 -
相似性度量
User CF 和 Item CF 都依赖于相似度的计算,因为只有通过衡量用户之间或物品之间的相似度,才能找到用户的“邻居”,才能完成推荐。上文简单的介绍了相似度的计算,但不完全,下面就对常用的相似度计算方法进行详细的介绍: 1. 基于皮尔森相关性的相似度 —— Pearson correlation-based similarity 皮 尔森相关系数反应了两个变量之间的线性相关程度,它的转载 2014-03-11 22:02:00 · 752 阅读 · 0 评论 -
智能推荐系统开发中的十个关键注意点
亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息。为了实现这个梦想,过去十余年间,无数顶尖技术专家和工程师投身于推荐算法和技术的研究与应用中,很多优秀的方法被提出,很多技术难题被攻克。在今天的互联网应用中,越来越多“转载 2014-06-16 17:31:46 · 2251 阅读 · 0 评论 -
推荐系统中所使用的混合技术介绍
推荐系统中所使用的混合技术介绍 文/陈运文 在推荐系统实际运用中,各种混合技术是其中一项极为重要的核心技术。在工程实践中我们发现,混合技术对提升推荐效果、改进推荐系统的性能等都有重要意义,因此本文对该专题进行如下的一些总结和介绍。 引言 在这个信息爆炸的时代,消费者面临众多选择、未知的领域、过载的信息时,往往无所适从;然而与此同时,内容的生产者(例如商家)也在苦苦寻觅合适的用户,寻找最便捷转载 2014-06-16 17:25:16 · 1142 阅读 · 0 评论