- 博客(5)
- 收藏
- 关注
原创 数据挖掘十大经典算法之二:K-means
概念和原理k-means是无监督聚类算法,主要是根据样本的相似度或者样本之间的距离进行自动分类。 首先,初始化聚类中心,可以随机选择K个样本,也可以固定选择其中的k个样本作为初始化的聚类中心。 其次,计算各样本到所有的聚类中心的相似度(此处用距离表示),将样本分到与聚类中心相似的最大即距离最小的中心所在的类中。 再次,更新聚类中心,可以通过样本的平均值计算 最后,循环迭代,直至满足停止条件。
2016-07-31 14:41:26 435
原创 经典排序算法之一:插入排序
基本原理插入排序的基本原理是将待排序序列看成两部分,一部分有序部分,另一部分是无序部分,刚开始的时候将第一个元素看成已排好序的部分,紧接其后的部分看成未排序部分,然后逐项将未排序部分中元素由后向前与排好序的部分中的元素逐项作比较,如果比排好序部分中的元素小,则交换位置,否则插入有序部分,如此直至序列有序举例序列: a={3,1,2,0,9,5,7} 第一趟:有序部分:{3},无序部分{1,2,0
2016-07-30 22:10:29 287
原创 经典排序算法之一:希尔排序
原理希尔排序是建立在插入排序的基础之上的,它是对插入排序的一种改进。希尔排序首先需要将原序列分组,不过此时的分组是根据步长进行的,每隔相同的步长就取一个元素放到同一组中,直至步长唯一,其中 step={n/2,n/4,n/8,…,1},其step也就是将要分组的个数举例说明对待排序序列 a={3,1,2,0,9,5,7} n=a.length 首先取步长为序列长度的一般即 step= {n/2
2016-07-30 21:27:09 258
原创 回归
回归的概念回归就是根据输入的数据写出一个目标值的公式,这个公式可以较好对输入的数据进行拟合,这个公式叫做回归方程,而公式中的涉及到的系数成为回归系数,求解这些系数的过程称为回归。简单来讲就是通过曲线对数据进行拟合。Exampley = a*x1 + b*x2 + c*x3 + d 始终公式就是一个回归方程,其中a,b,c,d为回归系数,根据输入的数据x1,x2,x3 求解上述回归系数。 求解过程
2016-07-28 16:49:36 338
原创 数据挖掘十大经典算法之一:K近邻
基本原理k近邻(k-Nearest Neighbor,KNN)是一种有监督学习方法,其工作机制很简单:在给定测试样本时,基于某种距离(欧氏距离)度量找出训练样本数据集中与其距离最近的K个样本,然后基于这个k个样本做预测,通常采用的是“投票法”,也就是说属于哪个类别的样本数多,就预测为该样本。 常用的距离计算公式 Lp距离定义: 欧氏距离:当p=2时,就是我们常见的欧式距离 曼哈顿距离:当p=1时称之
2016-07-27 08:24:32 692
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人