1.KNN原理
机器学习的原理:
是通过大量的数据,训练出一个能处理此类数据的模型。使得这个模型可以根据已知的数据,准确率很高的判断出未知的数据,从而使得人类能够采取正确的方法去处理某些事情。
传统机器学习算法主要包括以下五类:
回归:建立一个回归方程来预测目标值,用于连续型分布预测
分类:给定大量带标签的数据,计算出未知标签样本的标签取值
聚类:将不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征
关联分析:计算出数据之间的频繁项集合
降维:原高维空间中的数据点映射到低维度的空间中
- 线性回归:找到一条直线预测目标值
- 逻辑回归:找到一条直线来分类数据
- KNN:用距离度量最相近邻的分类标签
- NB:选着后验概率最大的类为分类标签
- 决策树:构造一科熵值下降最快的分类树
决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类别。采用的是自顶向下的递归方法,选择信息增益最大的特征作为当前的分裂特征。 - SVM:构造超平面,分类非线性数据
- k-means:计算质心,聚类无标签数据
- 关联分析: 在大规模数据集中寻找有趣的关系
- PCA降维:减少数据维度,降低数据复杂度
K-近邻算法(KNN)是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?
如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那