![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 95
哈密瓜Q
Hami
展开
-
机器学习算法——主成分分析(PCA)
具体来说,第一主成分是数据中方差最大的特征(即该特征下的值的方差最大),数据点在该方向有最大的扩散性(即在该方向上包含的信息量最多)。第二主成分与第一主成分正交(即与第一主成分无关),并在所有可能正交方向中,选择方差次大的方向。然后,第三主成分与前两个主成分正交,且选择在其余所有可能正交方向中有最大方差的方向,以此类推,中,紫色线方向上数据的方差最大(该方向上点的分布最分散,包含了更多的信息量),则可以将该方向上的特征作为第一主成分。表示已经中心化后的值),协方差矩阵的计算(二维)原创 2023-11-24 23:48:09 · 1918 阅读 · 0 评论 -
机器学习算法——聚类算法
聚类算法是一种无监督学习方法,用于将数据集中的对象分组或聚集成具有相似特征的集合,该集合被称为簇(cluster)。聚类算法通过计算数据点之间的相似性或距离,将相似的数据点归为同一簇,使簇内差距最小化,簇间差距最大化,从而将数据集划分为多个互相区分的组。聚类算法的目标是在无标签的情况下,发现数据中的内在结构和模式。聚类算法可以发现数据中的隐藏模式、异常值或离群点,以及进行数据预处理和可视化。原创 2023-11-23 16:02:18 · 1385 阅读 · 0 评论 -
机器学习算法——集成学习
Bagging(bootstrap aggregating:自举汇聚法)也叫装袋法,其思想是通过将许多相互独立的学习器的结果进行结合,从而提高整体学习器的泛化能力,是一种并行集成学习方法。且Bagging的准确率可能会比单分类器的准确率低。原创 2023-11-18 17:04:02 · 604 阅读 · 0 评论 -
机器学习算法——线性回归与非线性回归
例如两个变量之间成正比(例如:x1 为房子的面积,单位是平方英尺;x2为房子的面积,单位是平方米;不可逆的情况很少发生,如果有这种情况,其解决问题的方法之一便是使用正则化以及岭回归等来求最小二乘法。的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系,它可以用来评价模型的效果。常用相关系数来衡量两个变量间的相关性,相关系数越大,相关性越高,使用直线拟合样本点时效果就越好。下图的样本点中,左图的相关系数为0.993,右图的相关系数为0.957,即。由推导的公式可知,需要满足的条件是。原创 2023-11-11 11:16:29 · 515 阅读 · 0 评论 -
机器学习——支持向量机
支持向量机是一种分类器,称之为“机”是因为他会产生一个二值决策结果,即它是一种决策“机”。支持向量机的泛化错误率较低,即它具有良好的学习能力,且学到的结果具有很好推广性。原创 2022-01-28 12:43:39 · 1094 阅读 · 0 评论 -
机器学习实战——Logistic回归
利用Logistic回归进行分类的主要思想是根据现有数据对分类边界线建立回归公式,以此进行分类。逻辑回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。常用的是梯度上升算法,而它又可以简化为随机梯度上升算法。随机梯度上升算法与梯度上升算法效果相当,但占用更少的计算资源。原创 2022-01-28 12:41:39 · 1164 阅读 · 0 评论 -
机器学习实战——朴素贝叶斯
本次实验围绕使用贝叶斯公式进行垃圾邮件分类展开,贝叶斯公式的核心是“执果寻因”,是一种典型的后验概率,它基于原有的收集结果对先验概率进行修正并对待求解的事件进行估计。学习贝叶斯公式的同时也对先验概率、后验概率、条件概率和全概率公式进行了简单的回顾,条件概率和全概率公式是推导贝叶斯公式的基础所在。此外,在求解某个词在出某个类中出现的概率时需进行“拉普拉斯”修正,同时也需注意结果的下溢出(过多很小的数相乘,可采用取自然对数的方法来避免)。原创 2022-01-28 12:40:46 · 636 阅读 · 0 评论 -
机器学习实战——决策树
ID3算法(Iterative Dichotomiser 3)是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵作为对象分类的衡量标准,ID3算法的核心思想:根据样本子集属性取值的信息增益的大小来选择决策属性(即决策树的非叶子结点),并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。C4.5算法是ID3算法的一种延伸和优化,通过信息增益率选择分裂属性。原创 2022-01-28 12:38:40 · 1117 阅读 · 0 评论 -
机器学习实战——K-近邻算法的应用
从以上实例中可以发现KNN算法的基本思路是将测试样本通过算法在训练样本中预测其类别,其预测精度受多方面因素的影响,例如训练数据的正确性和规模、算法的实现过程、参数值k的选取等等。KNN算法的识别过程相当于蛮力识别,因为每个测试向量都要对训练集里的每一个数据进行距离运算,实际运用时可以发现其执行效率并不高。但是KNN算法的实现思路较为清晰、易于理解,对刚接触图像识别的新手提供了一个清晰直观的思路,同时也能为后续的算法提供很多实用性的方法。原创 2022-01-27 20:49:27 · 382 阅读 · 0 评论 -
机器学习实战——K-近邻算法
K-近邻算法(K-Nearest Neighbor),顾名思义,即选取最接近的数据进行分类的一种算法,它采用测量不同特征值之间的距离方法来进行分类。工作原理:存在一个样本数据集(训练样本集),并且样本集中的每一个数据都存在标签,即我们知道样本集中每一项数据与所属分类的对应关系,在输入没有标签的新数据时,将新数据的每个特征与样本集中数据对应的特征进行比较,最后根据算法提取样本集中最相似数据(最近邻)的分类标签。原创 2022-01-27 20:39:07 · 309 阅读 · 0 评论