一、KNN算法
K近邻算法(KNN,k-Nearest Neighbor),每个样本都可以用它的最接近的K个邻近值来代表。
1.算法说明: 输入没有标签的新数据,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。 一般来说,只选择样本数据集中k个最相似的数据。k一般不大于20,最后选择k个数据中出现次数最多的分类,作为新数据的分类
2.算法分析
计算已知类别数据集众多点与当前点之间的距离
按照距离递增次序排序
选取与当前点距离最小的k个点
确定前k个点所在类别的出现频率
返回前k个点出现频率最高的类别作为当前点的预测分类
3.代码实现如下:
二、决策树算法
1.分类决策树模型是表示基于特征对实例进行分类的树形结构。
2.决策树可以转换成一个if-then规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。
3.决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。
4.常用的算法有ID3、 C4.5和CART。
5.代码实现如下:
三、Kmeans算法
1.聚类是一种无监督的学习,它将相似的对象归到同一个簇中。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。
2.聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类。
3.K均值聚类算法:
初始化:常数K,随机选取K个聚类中心
计算每个样本与聚类中心之间的距离,将样本划分到距离最近的类别
计算每个类别中所有样本特征的均值,将其作为新的聚类中心
得出最终的聚类中心及每个样本所属的类别
四、朴素贝叶斯算法:
1.贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
已知类条件概率密度参数表达式和先验概率
利用贝叶斯公式转换成后验概率
根据后验概率大小进行决策分类
2.
五、PCA降维
1.PCA降维是一种常用的数据降维方法,旨在通过将高维数据投影到低维空间中的主要方向来捕获数据的本质结构1。
2.代码实现如下:
六、支持向量机算法
1.算法:
超平面:超平面H是从n维空间到n-1维空间的一个映射子空间,它有一个n维向量和一个实数定义 如果空间是三维的,那么它的超平面是二维平面,而如果空间是二维的,则其超平面是一维直线 超平面可以使用方程表示
2.SVM基本型
3.代码实现如下:
七、线性回归
1.线性回归(Linear Regression)通过属性的线性组合来进行预测的线性模型,目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。 确定多种变量之间相互依赖的定量关系的一种统计分析方法。
2.代码实现如下:
八、随机森林
1.随机森林既可以胜任分类任务又可以胜任回归任务。
2.机器学习中有两种任务,回归和分类,而随机森林可以同时胜任这两种任务。
其中分类任务是对离散值进行预测(比如将一景图像中的植被,建筑,水体等地物类型分类);
回归任务是对连续值进行预测(比如根据已有的数据预测明天的气温是多少度,预测明天某基金的价格)。
随机森林采用Bagging的思想,所谓的Bagging就是: 每次有放回地从训练集中取出 n 个训练样本,组成新的训练集; 训练得到M个子模型;随机森林以决策树为基本单元,通过集成大量的决策树,就构成了随机森林1。
3.代码实现如下:
九、逻辑回归
1.逻辑回归是用来做分类算法的,可以把Y的结果带入一个非线性变换的Sigmoid函数中,即可得到[0,1]之间取值范围的数S,S可以把它看成是一个概率值,如果我们设置概率阈值为0.5,那么S大于0.5可以看成是正样本,小于0.5看成是负样本,就可以进行分类了1。
2.代码实现如下: