一起啃书《机器学习》
文章平均质量分 94
一起啃书《机器学习》
小天才才
而世之奇伟、瑰怪,非常之观,常在于险远,而人之所罕至焉,故非有志者不能至也
展开
-
【一起啃书】《机器学习》第十章 降维与度量学习
主成分分析(PCA)是一种使用最广泛的数据降维算法,它的主要思想是将nnn维特征映射到kkk维上,这kkk维是全新的正交特征,也被称为主成分,是在原有nnn维特征的基础上重新构造出来的kkk维特征。PCA的数学定义是:一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。原创 2023-06-19 20:55:04 · 2945 阅读 · 1 评论 -
【一起啃书】《机器学习》第九章 聚类
AGNES是一种采用自底向上聚合策略的层次聚类算法,它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直到达到预设的聚类簇个数,所以关键在于如何计算聚类簇之间的距离。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”,通过这样的划分,每个簇可能对应于一些潜在的概念(类别),这些概念对聚类算法而言事先是未知的,聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名。原创 2023-06-14 22:44:59 · 1047 阅读 · 0 评论 -
【一起啃书】《机器学习》第八章 集成学习
是个体学习器的平均分歧。Boosting是一种可将弱学习器提升为强学习器的算法:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本的分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;在一般经验中,如果把好坏不等的个体学习器掺到一起,那么通常结果会是比最坏的要好一些,比最好的要坏一些,要获得好的集成,个体学习器应“好而不同”,即个体学习器要有一定的“准确性”,并且要有“多样性”,也就意味着学习器间具有差异,如下所示。原创 2023-05-27 21:32:29 · 1295 阅读 · 2 评论 -
【一起啃书】《机器学习》第七章 贝叶斯分类器
对于贝叶斯网学习而言,模型就是一个贝叶斯网,同时,每个贝叶斯网描述了一个在训练数据上的概率分布,自有一套编码机制能使那些经常出现的样本有更短编码,所以我们应该选择那个综合编码长度最短的贝叶斯网,这就是“最小描述长度”准则。贝叶斯网学习的首要任务就是根据训练数据集来找出结构最“恰当”的贝叶斯网,“评分搜索”是求解这一问题的常用方法,通过定义一个评分函数来评估贝叶斯网与训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网。未观测变量的学名是“隐变量”。具体来说,一个贝叶斯网。原创 2023-05-13 16:24:23 · 915 阅读 · 0 评论 -
【一起啃书】《机器学习》第六章 支持向量机
给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,+1}D = \{ ({x_1},{y_1}),({x_2},{y_2}),...,({x_m},{y_m})\} ,{y_i} \in \{ - 1, + 1\}D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,+1},分类学习最基本的想法就是基于训练集DDD在样本空间中找到一个划分超平面,将不同类别的样本分开,但能将训练样本分开的划分超平面可能有很多,如下所示:原创 2023-05-04 15:47:49 · 1546 阅读 · 0 评论 -
【一起啃书】《机器学习》第五章 神经网络
基于梯度的搜索时使用最为广泛的参数寻优方法,梯度下降法是沿着负梯度方向搜索最优解,因为负梯度方向是函数在当前点的方向导数最小的方向,方向导数是函数沿着某个方向的变化率,它与函数的梯度和该方向的单位向量的点积相等,当两个向量的夹角为180度时,点积最小,也就是说,当单位向量与梯度的反方向一致时,方向导数最小。Elman网络是最常用的递归神经网络之一,如下所示,它的结构与多层前馈网络很相似,但隐层神经元的输出被反馈回来,与下一时刻输入层神经元提供的信号一起,作为隐层神经元在下一时刻的输入。原创 2023-04-28 21:05:44 · 3744 阅读 · 0 评论 -
【一起啃书】《机器学习》第四章 决策树
一般的,一棵决策树包含一个根结点、若干个内部结点和若干个叶结点,叶结点对应于决策结果,其他每个结点则对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定测试序列。下面举一个西瓜数据集的例子,以下是数据集详情。决策树学习的关键在于如何选择最优化分属性,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,也就是结点的“纯度”越来越高,下面介绍几种在选择最优划分属性时常用的指标。原创 2023-04-15 01:03:35 · 673 阅读 · 0 评论 -
【一起啃书】《机器学习》第三章 线性模型
考虑到二分类任务,其输出标记$y \in { 0,1} $,而线性回归模型产生的预测值是实数值,所以需要将其进行转换,最理想的是单位阶跃函数,即预测值大于零判为正例,小于零判为负例,等于零可任意判别。需注意的是,欠采样法的时间开销通常远小于过采样法,因为前者丢弃了很多反例,使得分类器训练集远小于初始训练集,而过采样法增加了很多正例,其训练集大于初始训练集,过采样法也不能简单地对初始正例样本进行重复来样,否则会招致严重的过拟合。它的作用是减小模型所有参数的大小,可以防止模型过拟合,提升模型的泛化能力。原创 2023-04-11 19:35:01 · 485 阅读 · 0 评论 -
【一起啃书】《机器学习》第一章 绪论 + 第二章 模型评估与选择
其中,训练集和测试集是必须的,而验证集是可选的,如果没有设置验证集,通常得等到测试集才可以知道训练之后的模型效果如何,然后再来调整超参数,这样时间代价较高,通过验证集可以训练几个epoch后查看模型的训练效果,然后决定怎么调整超参数。:数据集、示例(样本)、属性(特征)、属性值、属性空间(样本空间、输入空间)、特征向量、学习(训练)、训练数据(训练集)、训练样本、学习器、标记空间(输出空间)、分类、回归、聚类、监督学习、无监督学习、正类、反类、多分类、测试集、泛化能力、假设空间、版本空间。原创 2023-04-08 15:52:41 · 1306 阅读 · 0 评论