![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 73
宝G
这个作者很懒,什么都没留下…
展开
-
k均值聚类算法
算法描述输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使平方误差准则最小。 算法步骤: 1.为每个聚类确定一个初始聚类中心,这样就有K 个初始聚类中心。 2.将样本集中的样本按照最小距离原则分配到最邻近聚类 3.使用每个聚类中的样本均值作为新的聚类中心。 4.重复步骤2.3直到聚类中心不再变化。 5.结束,得到K个聚类 伪代码创建k个点作为起始质心(经常随机选择)当原创 2016-12-14 10:57:26 · 4688 阅读 · 0 评论 -
层次聚类算法
算法描述输入:包含n个对象的数据集输出:簇的分层结构算法步骤:计算邻近度矩阵每个点作为一个簇Repeat 合并最接近的两个簇 更新邻近度矩阵Until 仅剩下一个簇特点如果两个类被合并,那么将不能被恢复不同的聚类模式都有以下一个或多个问题: 1.对噪音和异常点敏感 2.处理不同大小的簇和凸起的形状的簇比较困难 3.分割大的类层次关键的操作是计算两个簇之间的邻原创 2016-12-14 11:28:36 · 1157 阅读 · 0 评论 -
kNN分类算法python实现
安装pythonMatplotlib依赖于Python和NumPy,所以在unbuntu上安装python的快捷方法就是直接安装Matplotlib>sudo apt-get install python-matplotlibkNN算法伪代码1.计算已知类别数据集中的点与当前点之间的距离;2.按照距离递增次序排序;3.选取与当前距离最小的k个点;4.确定前k个点所在类别的出现频率;5.返回前原创 2016-11-22 22:13:24 · 2426 阅读 · 1 评论 -
分类概述
决策树决策树以自顶向下, 递归分治的方式构造属性的选择基于启发式或统计度量(例如,信息增益)节点上的样本递归地基于选定的属性划分停止划分的条件朴素贝叶斯先给个实例 类: C1:buys_computer=‘yes’ C2:buys_computer=‘no’数据样本 X =(age<=30, income=medium, student=yes, credit_rating=fai原创 2016-11-12 18:13:16 · 471 阅读 · 0 评论 -
DBSCAN聚类算法
基于密度定义,我们将点分为:稠密区域内部的点(核心点)稠密区域边缘上的点(边界点)稀疏区域中的点(噪声或背景点).DBSCAN算法的本质就是随大流,边界点紧紧围绕着核心点,他们抱团,不带噪点玩儿小团体多了,联系比较密切的小团体之间聚成了同个类 比较偏远的小团体想要加入这个圈子,进不去,就单干,我们自己玩自己的,聚成了另外的一个类 一开始就被孤立的噪点吧,自然有自己的傲骨,接着孤芳自赏算法原创 2016-12-14 15:01:14 · 13904 阅读 · 0 评论 -
聚类概述
聚类: 数据对象的集合同一簇中的对象彼此相似不同簇中的对象彼此相异聚类分析: 将数据对象(观测)的集合划分成子集过程聚类是无监督的分类: 没有预先定 义的类编号 基于划分方法-k-meansk均值聚类算法输入:簇的数目k和包含n个对象的数据库。 输出:k个簇,使平方误差准则最小。 算法步骤: 1.为每个聚类确定一个初始聚类中心,这样就有K 个初始聚类中心。 2.将样本集中的样本按照原创 2016-11-27 15:25:16 · 695 阅读 · 0 评论 -
标称属性的概念分层
tag:C++分离字符串;vector数组去重问题的提出 数据挖掘>>数据预处理>>数据变换>>数据离散化>>标签属性的概念分层数据离散化:将连续属性的值域划分区间,便于数据挖掘,影响顶层决策 以数值数据年龄为例, 年龄是个连续属性,可以取0~100及以上的整数,单独研究特定年龄的样本数据并没有太大意义 但年龄可以用区间标签(0~18,19~30,30~50,>50)或者概念标签(童年,青原创 2016-10-18 15:37:30 · 3761 阅读 · 0 评论 -
Django入门
研究生考试告一段落了,可以踏踏实实地学点技术了。实话说,学过的东西虽然很多,但也很杂,不成体系,并没有什么特别擅长的,出去找工作什么的太没有竞争力。这里记录一下入门过程参考资料:主要:Growth系列参考:Django简易流程 问题及解决由于Django不同版本变换,有些东西被淘汰了,可能教程里面的一部分解决方案拿来用之后发现并不适用,后面讲记录一下学习过程中碰到的问题查看Django版本>>原创 2016-12-26 22:14:58 · 456 阅读 · 0 评论