数据挖掘
文章平均质量分 72
追寻灯火阑珊
这个作者很懒,什么都没留下…
展开
-
聚类分析之模糊C均值算法核心思想
聚类分析中存在一种方法:‘模糊C均值’,模糊C均值的发现,要感谢模糊数学之父“扎德”老爷子,他老人家当年提出了“模糊集合论”和“模糊逻辑”,介绍算法之前,先简单的补充一些相关的知识点. 所谓模糊集合论,就是一种处理结果不确定、不能精确量化的方法。例如:存在一句话“今天估计会下雨”,这就是典型的模糊,我们不能精确的表示这句话的值,今天估计会下雨,那下雨的程度是多少呢?我们此时就用原创 2016-06-27 13:13:21 · 10534 阅读 · 1 评论 -
聚类分析之k-prototype算法解析
K-prototype是处理混合属性聚类的典型算法。继承Kmean算法和Kmode算法的思想。并且加入了描述数据簇的原型和混合属性数据之间的相异度计算公式。常规定义:X={X1,X2,X3………Xn}表示数据集(含有n个数据),其中数据有m个属性。 数据Xi={X11,X12,X13……….X1m} Aj表示属性j dom(Aj) 表示属性j的值域: 对于数值属性,翻译 2016-08-06 21:38:26 · 22878 阅读 · 1 评论 -
基于密度的optics聚类分析算法
DBSCAN有一些缺点,如:参数的设定,比如说阈值和半径 这些参数对结果很敏感,还有就是该算法是全局密度的,假若数据集的密度变化很大时,可能识别不出某些簇。如下图: 核心距离:假定P是核心对象,人为给定一个阈值A,然后计算关于P点满足阈值A的最小的半径R,即在R内,P最少有给定A个点数。 可达距离:对象q到对象p的可达距离是指p的核心距离和p与q之间欧几里得距离之间的较大值。如果原创 2016-08-29 20:30:09 · 6178 阅读 · 1 评论 -
熵在计算机方向的应用(浅谈信息熵)
信息是一个很抽象的东西,吃苹果的概率是二分之一,吃香蕉的概率是二分之一,这里面包含了多少信息量,由于信息很抽象,无法直观的量化。信息熵原先是热力学中的名词,原先含义是表示分子状态的混乱程度。香农引用了信息熵概念,因此,便有了信息论这一门学科,信息熵表示一个事件或者变量的混乱程度(也可称为一个事件的不确定性),将信息变成可以量化的变量。综上所述,信息熵是信息论中用于度量信息量的一个概念。原创 2016-09-02 16:42:26 · 10265 阅读 · 1 评论 -
遗传算法最通俗的讲解案例
遗传算法遗传算法求全局最优解或者近似优解。遗传算法GA可以用到数据挖掘领域,由于缺少一些详细的例子,导致难以理解,以下是一个大牛的遗传算法的详细例子遗传算法的有趣应用很多,诸如寻路问题,8数码问题,囚犯困境,动作控制,找圆心问题(这是一个国外网友的建议:在一个不规则的多边形 中,寻找一个包含在该多边形内的最大圆圈的圆心。),TSP问题(在以后的章节里面将做详细介绍。),生产调度问题,人转载 2016-09-07 09:33:09 · 37174 阅读 · 6 评论 -
理解谱聚类
理解谱聚类 前面介绍过K-means聚类方法,这个方法简单易懂,主要在于如何定义距离计算公式(一般使用欧氏距离),如何选择K值,这两个问题。这次我们介绍谱聚类,它是K-means的升级版。我们计划从这样几个方面介绍谱聚类:K-measn聚类有什么缺点?谱聚类的基本思想,以及谱聚类的算法步骤。 那么K-means到底有什么问题呢?我们为什么需要转载 2017-02-14 17:27:31 · 572 阅读 · 0 评论 -
线性插值法
线性插值法线性插值法(linear interpolation)目录[隐藏]1 什么是线性插值法[1]2 如何进行线性插值3 线性插值近似法4 线性插值法的计算实例[2]5 参考文献[编辑]什么是线性插值法[1] 线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法。转载 2017-07-22 20:42:57 · 19510 阅读 · 0 评论