机器学习
文章平均质量分 90
机器学习笔记,少部分西瓜书,其他为机器学习实战
别来这个网址
这个作者很懒,什么都没留下…
展开
-
机器学习实战第十章 k均值聚类
k均值聚类什么是k均值聚类试想一下,如果给一张图如下,要求对这张图中的点分类,你会怎么进行呢?我们当然可以认为所有的点都只有一个种类,毕竟他们本身只有坐标不同,也可以左右分成两个大类,也可以四个角落划分成四类,这一切都取决于最初定的分类个数,而这就是k均值聚类。所谓k,就是我们的目标要把数据划分为k个类。所谓聚类,就是向上面的例子一样,实现不给任何标签,让我们自己区随意分类均值则是代表了一种方法,本文后面会介绍到具体实现前面我们已经了解了我们的目的是什么。下面我们来讲解如何实现。我们要分类原创 2023-06-29 17:21:50 · 223 阅读 · 0 评论 -
机器学习实战第十三章 利用PCA来简化数据
PCA的全称是Principal Component Analysis,也即主成分分析,说人话就是改变坐标系来让数据更好处理(降维)。为什么说改变坐标系就能够让数据更好处理呢?诸位既然参加过高考,学过高数,那么多半是学过直角坐标系与极坐标系,有的时候换个坐标就能让结果好很多。只不过极坐标是为了简化计算过程,而PCA是为了对数据降维。那么什么是降维呢?书上的例子就非常的直观:假设我们要对下图进行分类,那么得到的决策边界多半是这样子:那么我们是用了几个变量(也可以视作维度)来学习和描述决策边界的呢。原创 2023-07-04 15:25:20 · 85 阅读 · 0 评论 -
西瓜书第五章 神经网络
神经元的功能还是很简单的,接收一组输入,进行一些运算后输出。yf∑i1nωixi−θyfi1∑nωixi−θ有没有觉得这个公式很眼熟?我们在机器学习实战这本书的逻辑回归见过这个公式了,这个公式的实际意义可以这么理解:接受一组特征,将特征加权求和后减去阈值,然后根据最后所得的符号判断是正类还是负类。同样的,这里也有sigmoid函数,用于将输出结果约束到0-1之间感知机由两层神经元组成,一层接受外界的输入,被称为输入层;原创 2023-07-03 20:00:45 · 53 阅读 · 0 评论 -
机器学习实战第五章 Logistic回归
书上讲解的顺序其实并不是很好,下面是打乱顺序的讲解。原创 2023-06-16 16:44:10 · 52 阅读 · 0 评论 -
机器学习实战第六章 支持向量机
支持向量机(Support Vector Machine,SVM)是一种监督学习算法,用于进行二分类和回归分析。它的目标是找到一个最优的超平面(在二维空间中即为一条直线),将不同类别的样本点分隔开来,并且使得离超平面最近的样本点到该超平面的距离最大化。原创 2023-06-24 11:34:27 · 98 阅读 · 0 评论 -
机器学习实战第七章 集成学习
所谓三个臭皮匠顶个诸葛亮,类似的思想就是集成学习的核心思想。集成学习是通过将多个弱学习器(Weak Learners)组合在一起,形成一个更强大的学习模型。成学习通过结合多个学习器的预测结果,可以达到比单个学习器更好的性能和泛化能力。原创 2023-06-27 13:30:02 · 239 阅读 · 0 评论 -
西瓜书第一二章
数据集:一批样本的集合样本空间:所有样本可能的取值的集合,例如对于人而言,通常情况下只有男女两种性别,那么{男,女}这个集合就是一个简单的样本空间特征向量:这是一个比较抽象的概念,意思是一组特征在样本空间中的坐标信息。为什么要这么做呢?我们从头开始讲吧。上面提到的样本空间只有一种特征也就是男女。但是正常情况下,一个事物是由非常多的特征组成的,比方说人除了性别之外还有身高体重等等。原创 2023-06-05 19:57:46 · 48 阅读 · 0 评论 -
机器学习实战第二章 k-近邻算法
所谓近朱者赤近墨者黑,有这么一种说法,我们只需要看一个人的朋友就能判断这个人怎么样。k-近邻算法的思想与此类似,我们只需要计算出给定点附近哪一种标签最多,即可据此判断该点属于哪个类。原创 2023-06-07 22:20:52 · 64 阅读 · 0 评论 -
机器学习实战第三章 决策树
简而言之,就是通过一步步的决策,来对某些事物分类(说着说最终做出什么选择)。原创 2023-06-10 16:27:58 · 56 阅读 · 0 评论 -
机器学习实战第四章 朴素贝叶斯
在机器训练的过程中,我们是已知几个量,求另外一个不易获得的量。PA∣BPBPB∣A其实这个公式在概率论中已经学过了,下面开始正题。原创 2023-06-15 14:47:58 · 51 阅读 · 0 评论