自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习实验七——PCA

PCA(Principal Component Analysis),称主成分分析,是一个非监督的机器学习算法。PCA通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭示隐藏在复杂数据背后的简单结构。现象:在计算协方差矩阵时,由于对公式理解不深刻,出现了计算错误,影响了特征值和特征向量的求解。解决方案:回顾协方差矩阵的定义和计算方法,确保使用正确的公式进行计算。

2024-06-22 13:09:51 1050

原创 机器学习实验六——支持向量机

支持向量机是一种基于间隔最大化原则的监督学习模型,它通过找到数据集中的最优超平面来区分不同的类别。在二维空间中,这个超平面可以看作是一条线;在三维空间中,它是一个平面;而在更高维空间中,它是一个超平面。问题:如何更新权重向量和偏置项以获得最佳的决策边界?观察到在SVM中,需要最大化间隔来确定最佳的决策边界。为了解决这个问题,我们使用了梯度下降法,通过迭代更新权重向量和偏置项,使得函数间隔尽可能地大,从而获得最佳的决策边界。问题:如何设置合适的学习率以避免代价逐渐增大的问题?

2024-06-11 09:00:00 2015

原创 机器学习实验五——logistic回归模型

逻辑回归是统计学中的一种回归模型,它被广泛用于二分类问题。尽管名字中有“回归”二字,逻辑回归实际上是一种分类算法。逻辑回归是一种预测分析方法,用于估计一个特定事件的发生概率。它通过使用逻辑函数(通常是Sigmoid函数)将线性回归模型的输出映射到0和1之间,从而实现对二元分类问题的预测。2.基本原理:线性组合:逻辑回归首先计算输入特征的线性组合,即 z=w1​x1​+w2​x2​+...+wn​xn​+b,其中 w 是权重,b 是偏置项,x 是特征值。Sigmoid函数。

2024-05-26 19:48:29 2698

原创 机器学习实验四——朴素贝叶斯

朴素贝叶斯(Naive Bayes)是机器学习中一种基于概率理论的简单分类算法。它的名字来源于它所依赖的朴素贝叶斯定理,以及它的一个关键假设——特征之间的条件独立性,这使得它在某些情况下表现得非常出色,尤其是在处理大量特征的文本分类问题时。拉普拉斯平滑通常用于解决贝叶斯分类器等算法中可能出现的概率为零的情况。修正的基本思想是在概率估计中添加一个小的常数,以防止零概率值的出现。

2024-05-12 13:39:34 1063

原创 机器学习实验三——决策树

机器学习中的决策树是一种基本的监督学习算法,用于分类和回归任务。它通过构建一个树状结构来模拟一系列决策过程,从而实现对数据的预测和分类。在决策树中,每个内部节点表示一个特征属性的判断条件,而每个分支代表该特征属性在某个取值范围上的输出,最后的叶节点表示分类结果。通过从根节点开始,根据特征属性的取值沿着决策树的分支进行遍历,最终到达叶节点,就可以得到对应的预测结果。决策树的构建过程主要是基于信息论的原理,通过计算不同特征的信息增益或基尼指数等指标来评估其重要性,并选择最优的特征进行划分。

2024-04-28 12:53:35 1149 1

原创 机器学习实验二——模型评估

(1)ROC 曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言 PR 曲线关注于正例。(2)如果只想单纯地比较分类器的性能且剔除类别分布改变的影响,则 ROC 曲线比较适合,因为类别分布改变可能使得 PR 曲线发生变化时好时坏,这种时候难以进行模型比较;反之,如果想测试不同类别分布下对分类器的性能的影响,则 PR 曲线比较适合。

2024-04-13 20:37:47 2054

原创 机器学习实验二——使用k-近邻算法改进约会网站的配对效果

结论:通过Matplotlib创建散点图我们可以直观的观察到不同数据样本点标签类与数据特征值的关联,过观察散点图的分布,可以发现数据是否存在明显的聚类趋势。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。我们很容易发现,在计算各个样本点之间的距离时,数字差值最大的属性对计算结果的影响最大,也就是说,每年获取的飞行常客里程数对应计算结果的影响将远远大于其他两个特征的影响。pwd=welw 提取码:welw。

2024-03-31 12:58:06 1077

原创 机器学习实验环境安装

此前已经配置好了,以下是结果图。

2024-03-07 19:33:04 364

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除