数据挖掘
yxj_1989
这个作者很懒,什么都没留下…
展开
-
结合数据挖掘分类谈谈对信息熵的理解
信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。 公式为:H(x)=E[I(xi)]=E[ log(2,1/p(xi)) ]=-∑p(xi)log(2,p(xi)) (i=1,2,..n)该值越大表示信息量越大 在一个系统中,该系原创 2013-07-19 16:58:57 · 4720 阅读 · 0 评论 -
数据挖掘中的划分聚类简介(k均值和k中心点)
k均值方法介绍: 从中任意选择k个对象作为簇的中心 repeat 根据均值,将每个对象划分到最相似的簇 更新簇均值,计算每个簇对象的均值 until 不再发生变化 存在的缺点; 1.只有簇有均值定义的时候才能使用 2.不适合发现凸形状的簇,或者大小相差很大的簇,适合发掘圆形簇翻译 2013-07-26 19:36:15 · 2481 阅读 · 0 评论
分享