![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 94
原理实践结合
笨笨sg
东B计科
展开
-
第2章 -KNN
KNN(K-Nearest Neighbors)算法是一种基本的机器学习算法,用于分类和回归问题。该算法根据样本之间的距离度量,在训练数据集中找到与待分类样本最近邻的K个样本,并基于这K个样本进行分类或回归。原创 2023-11-17 18:27:02 · 104 阅读 · 0 评论 -
第1章-机器学习概述
我们不妨参考卡耐基梅隆大学机器学习和人工智能教授汤姆.米切尔(Tom Mitchell)在他的经典教材《机器学习》中,给出的更为具体的定义:对于某类任务(Task,简称T)和某项性能评价准则(Performance,简称P),如果一个计算机在程序T上,以P作为性能度量,随着经验(Experience,简称E)的积累,不断自我完善,那么我们称计算机程序从经验E中进行了学习。例如,射击运动员的训练过程:射击标靶(任务T),以准确率为性能度量(P),随着不断练习(经验E),准确率不断提高,这个过程称为学习。原创 2023-11-17 00:13:26 · 87 阅读 · 0 评论 -
机器学习(学习历程)
记录本人的机器学习历程。原创 2023-11-17 00:13:42 · 116 阅读 · 0 评论 -
第3章 线性回归
线性回归算法以一个坐标系里一个维度为结果,其他维度为特征(如二维平面坐标系中横轴为特征,纵轴为结果),无数的训练集放在坐标系中,发现他们是围绕着一条执行分布。线性回归算法的期望,就是寻找一条直线,最大程度的“拟合”样本特征和样本输出标记的关系。(3)最后通过数学方法推导使损失函数值最小的算法参数数学式子(确定参数的方法有很多,包括最小二乘法(求解正规方程)、梯度下降、岭回归等)。通过这个参数a和b的求解公式,我们就可以准确得到其对应的参数值。那么,这个公式是如何得到的呢?原创 2023-11-19 12:52:43 · 104 阅读 · 0 评论 -
第7章 逻辑回归
逻辑回归也称作logistic回归分析,是一种广义的线性回归分析模型,属于机器学习中的监督学习。其推导过程与计算方式类似于回归的过程,但实际上主要是用来解决二分类问题(也可以解决多分类问题)。通过给定的n组数据(训练集)来训练模型,并在训练结束后对给定的一组或多组数据(测试集)进行分类。其中每一组数据都是由p 个指标构成。原创 2023-11-21 16:43:41 · 65 阅读 · 0 评论 -
第10章 支持向量机
在二维空间中,超平面就是一条直线,而在高维空间中,超平面是一个具有 N-1 维的线性子空间,其中 N 是特征的维数。我们可以看到,SVM找到的超平面拥有强大的泛化能力,对于可能出现的新的接近划分平面的样本点(蓝色标注点)的分类能力强于另外两种方法,因为线性模型很难保证每次都取到距离所有点都很远的划分线。对于在有限维度向量空间中线性不可分的样本,我们将其映射到更高维度的向量空间里,再通过间隔最大化的方式,学习得到支持向量机,就是非线性SVM。的函数,用于绘制SVM模型的决策边界和间隔边界。原创 2023-11-24 21:37:25 · 908 阅读 · 0 评论 -
第6章 多项式回归
下面的数据,虽然我们可以使用线性回归来拟合这些数据,但是这些数据更像是一条二次曲线,相应的方程是:如果将理解为一个特征,将x理解为另外一个特征,本来我们的样本只有一个特征x,现在我们把他看成有两个特征的一个数据集。我们为样本多添加了一些特征,这些特征是原来样本的多项式项,增加了这些特征之后,我们可以使用线性回归的思路更好的拟合数据,这就是所谓的多项式回归。多项式回归和线性回归的联系多项式线性回归在机器学习算法上并没有新的地方,完全是使用线性回归的思路。他的关键在于为原来的样本,添加新的特征。原创 2023-11-20 21:44:41 · 357 阅读 · 0 评论 -
第8章 混淆矩阵
为了更好地评估分类模型的性能,混淆矩阵引入了真阳性(True Positive, TP)、真阴性(True Negative, TN)、假阳性(False Positive, FP)和假阴性(False Negative, FN)这些指标。通过对这些指标进行统计和分析,我们可以获得更全面的模型性能评估,包括召回率(Recall)、精确率(Precision)、假阳性率(False Positive Rate)等指标。这些指标帮助我们更好地理解模型在不同类别预测中的表现,并发现潜在的问题。原创 2023-11-22 20:39:19 · 443 阅读 · 0 评论 -
第4章 梯度下降
首先,我们要知道梯度下降法不是一个机器学习算法,是一种基于搜索的最优化方法,梯度下降法主要用于最小化损失函数。多元线性回归中的梯度下降法。判断机器学习算法的性能。原创 2023-11-19 15:53:14 · 71 阅读 · 0 评论 -
第9章 决策树
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。其用于解决分类和回归问题。它是一个树形结构,其中每个内部节点表示一个特征或属性,每个分支代表该特征的一个取值,而每个叶节点代表一个类别或一个预测值。ID3算法的规则非常简单,就是寻找信息增益最大的属性作为节点。信息增益最大,意味着使用这个属性之后,结果的不确定性最低,也即熵最低。熵是用来衡量事物的不确定性,事物的不确定性越大,熵就越大,其公式为:其中,c是类别的个数,原创 2023-11-22 23:50:19 · 1053 阅读 · 1 评论 -
第5章 -PCA
PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。PCA 的数学推导可以从最大可分型和最近重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小,这里我将从最大可分性的角度进行证明。部分内容转载自。原创 2023-11-20 16:59:19 · 76 阅读 · 1 评论 -
第11章 聚类
聚类是一种无监督学习方法,用于将数据集中的样本划分为具有相似特征的组或簇。聚类的目标是在不事先知道样本的类别标签的情况下,通过发现数据内在的结构和模式,将相似的样本归为一类,并将不相似的样本彼此分开。聚类算法的工作原理通常是基于样本之间的相似性度量或距离度量。常见的聚类算法包括K均值聚类、层次聚类、DBSCAN、高斯混合模型等。自此,可总结出 K-Means 算法的步骤:① 随机选择 k 个样本作为初始簇类的均值向量② 将每个样本数据划分给离它距离最近的簇;③ 根据每个样本所属的簇,更新。原创 2023-11-25 15:03:59 · 964 阅读 · 0 评论 -
第12章 -集成学习
集成学习(Ensemble Learning)是一种机器学习方法,通过将多个学习器(也称为基分类器或弱分类器)组合在一起,以达到更好的预测性能。集成学习通过结合多个学习器的预测结果,可以降低单个学习器的偏差、方差或提高泛化能力,从而提高整体的预测准确性和鲁棒性。集成学习的基本思想是“三个臭皮匠,顶个诸葛亮”,即通过组合多个弱分类器来形成一个强分类器。这种思想来源于统计学中的“多数表决原则”,即通过多数人的意见来决定最终结果。原创 2023-11-26 14:15:53 · 1141 阅读 · 0 评论