![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
《机器学习》西瓜书笔记
文章平均质量分 87
机器学习入门笔记
Yozu_Roo
这个作者很懒,什么都没留下…
展开
-
【机器学习】范数规则化之——L0、L1与L2范数
【机器学习】范数规则化之——L0、L1与L2范数在机器学习领域中,我们通常求解模型的目标是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据,而规则化参数是防止我们的模型过分拟合我们的训练数据。因为参数太多,会导致我们的模型复杂度上升,容易过拟合,也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标,我们的目标是希望模型的测试误差小,也就是能准确的预测原创 2022-05-01 10:56:50 · 832 阅读 · 0 评论 -
《机器学习》西瓜书课后习题9.4——python实现K-means算法
《机器学习》西瓜书课后习题9.4——python实现K-means算法9.4 试编程实现k均值算法,设置三组不同的k值、三组不同的初始中心点,在西瓜数据集4.0上进行实验比较,并讨论什么样的初始中心有利于取得好结果.本文主要适用python语言编程实现了K-means算法的过程,并使用了西瓜数据集4.0作为测试数据,在初始化均值向量时使用随机选择的方法,因此相同参数的情况下代码每次运行的结果可能会有所不同。最后,为了验证聚类效果,可视化了最终的结果集,可以发现的是,随着迭代的此时的增多,聚类的效果原创 2022-04-25 17:36:11 · 5975 阅读 · 2 评论 -
【机器学习中的数学基础】矩阵特征值、特征向量和特征值分解的几何意义
【机器学习中的数学基础】矩阵特征值、特征向量和特征值分解的几何意义在《机器学习》西瓜书中的第十章提到了“多维缩放”(简称MDS)方法,该方法是一种经典的的降维方法。此方法的目标是获得样本在d′d^{'}d′维空间的表示,且任意两个样本在d′d^{'}d′维空间中的欧式距离等于原始空间中的距离。在介绍该方法时提到了特征值分解这一概念,在线性代数的课程学习中,重点放在了如何求解特征值和特征值分解,对于其表示的数学含义而不求甚解,因此,本文就矩阵的特征值、特征向量以及特征值的分解所具有的几何意义做出解释。相原创 2022-04-24 11:00:31 · 3613 阅读 · 1 评论 -
《机器学习》西瓜书课后习题8.5——python实现基于决策树的Bagging算法
《机器学习》西瓜书课后习题8.5——python实现基于决策树的Bagging算法8.5 试编程实现Bagging,以决策树桩为基学习器,在西瓜数据集3.0a上训练一个Bagging集成,并玉图8.6相比较写在前面:由于写者的失误错将“西瓜数据集3.0a"看成”西瓜数据集3.0“,由于这两个数据集存在较大的差别,本文所论述的完全是基于3.0a数据集的,但是算法的核心思想没有改变,仅供读者参考!!!参考博客:《机器学习》西瓜书课后习题4.3——python实现基于信息熵划分的决策树算法(简单、全原创 2022-04-22 21:10:44 · 3354 阅读 · 0 评论 -
《机器学习》西瓜书课后习题8.3——python实现基于决策树的AdaBoost算法
《机器学习》西瓜书课后题8.3——基于决策树学习器的集成学习(Python代码实现)原创 2022-04-22 15:22:49 · 4752 阅读 · 2 评论 -
《机器学习》Chapter 6 支持向量机
《机器学习》Chapter6 支持向量机笔记原创 2022-04-21 19:36:11 · 558 阅读 · 0 评论 -
【AdaBoost算法】集成学习——AdaBoost算法实例说明
【AdaBoost算法】集成学习——AdaBoost算法实例说明AdaBoost算法是数据挖掘十大算法之一,但是部分参考书上只给了该算法的数学推导过程,具体的流程并未详细举例加以解释,因此不利于学习者的掌握和领悟,通过查找相关资料,发现知乎有篇博文介绍的很是详细,并且附有具体实例加以理解。(十三)通俗易懂理解——Adaboost算法原理一、AdaBoost算法过程给定训练数据集:(x1,y1),(x2,y2)···(xn,yn),其中yi属于{1,-1}用于表示训练样本的类别标签,i=1,…,N。A原创 2022-04-21 15:30:38 · 3917 阅读 · 1 评论 -
《机器学习》Chapter 5 神经网络笔记
《机器学习》Chapter 5 神经网络1.神经元模型神经元接收到来自n个其它神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。2.感知机与多层网络常见的神经网络每层神经元与下一层神经元全互联,神经元之间不存在同层连接,也不存在跨层连接,被称为多层前馈神经网络。其中输入层神经元接收外界输入,隐层与输入层神经元对信号进行加工,最终结果有输出层神经元输出。输出层神经元仅是接受输入,不进行函数处原创 2022-04-15 15:19:35 · 858 阅读 · 1 评论 -
《机器学习》西瓜书课后习题4.3——python实现基于信息熵划分的决策树算法(简单、全面)
《机器学习》西瓜书课后习题4.3——python实现基于信息熵划分的决策树算法《机器学习》西瓜书P934.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树。以下内容是使用sklearn快捷生成的决策树,由于该函数的局限性,所得到的决策树是二叉树,但是也能做到相对正确的分类,同时在敲代码的过程中参考了大量资料和博客,在此文中一并总结了决策树构造所踩的坑和学到的东西,请大家仔细阅读前言(都是坑、运行代码前务必阅读、理解以下部分并配置好相关的环境)初识sklearn原创 2021-05-09 15:03:35 · 8652 阅读 · 11 评论 -
《机器学习》Chapter 4 决策树
《机器学习》Chapter 4 决策树4.1 基本流程 决策树是一类常见的机器学习算法,是一种简单但是广泛使用的分类器。顾名思义,决策树基于树结构进行决策。一般的,一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。 决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树。 决策树有两大优点:原创 2021-05-07 09:26:13 · 1945 阅读 · 1 评论 -
《机器学习》西瓜书课后习题3.5——python实现线性判别分析
《机器学习》西瓜书课后习题3.5——python实现线性判别分析《机器学习》西瓜书P693.5 编程实现线性判别分析,并给出西瓜数据集3.0a上的结果理论学习参见文章:线性判别分析LDA原理总结注意:在该文章中针对w的求法出现了两种方式,一种是w=S−1w(μ0−μ1)w=S^-1 w(μ_0−μ_1)w=S−1w(μ0−μ1)该方法指的应该是针对二类LDA,所以我们在解决西瓜数据集问题是求w的方法采用此方法。另一种方法是:计算S−1wSb的最大的d个特征值和对应的d个特征向量(原创 2021-05-06 13:39:35 · 5472 阅读 · 7 评论 -
《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率
《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率《机器学习》西瓜书P693.3 选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率数据集:鸢尾花数据集数据集属性信息:1.萼片长度(以厘米计)2.萼片宽度(以厘米计)3.花瓣长度(以厘米计)4.花瓣宽度(以厘米计)5.类别:数据集处理说明:该数据集中鸢尾花种类共有3种,分别是:Iris-setosa、Iris-versicolor和Iris-virginica,由于题目中要求采原创 2021-05-04 10:58:07 · 2185 阅读 · 7 评论 -
《机器学习》Chapter 3 线性模型
《机器学习》Chapter 3 线性模型3.1 基本形式f(x)=wTx+b,f(x)=w^Tx+b,f(x)=wTx+b,其中w=(w1;w2;……wd).w和b学得之后,模型得以确定;先从回归任务开始,然后讨论二分类和多分类任务。3.2 线性回归 线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点;如果有两个特征,表现在平面原创 2021-05-02 08:42:14 · 668 阅读 · 0 评论 -
《机器学习》西瓜书课后习题3.3——python实现对率回归
《机器学习》西瓜书课后习题3.3——python实现对率回归(梯度下降法)《机器学习》西瓜书P69:3.3 编程实现对率回归,并给出西瓜数据集3.0a上的结果首先我们回归一下什么的是对率回归?对数几率回归模型,是一个典型的二分类任务学习模型书接上回,我们可以对一个数据集得到它的回归方程我们是这样去解读回归方程的:在相关属性下对样例的某一特征的度量我们根据回归方程得到的特征度量是一个连续值,我们可以根据这个度量值进行分类例如:大学的绩点计算,当我们的绩点大于等于2.0才能拿到学位,否则拿不原创 2021-05-01 17:59:00 · 16984 阅读 · 35 评论 -
《机器学习》Chapter 2 模型评估与选择
《机器学习》Chapter 2 模型评估与选择2.1 经验误差与过拟合错误率和精度:通常我们把分类错误的样本数占样本总数的比例称为”错误率“,即如果在m个样本中有a个样本分类错误,则错误率为E=a/m;相应的,1-a/m称为”精度“。误差:把学习器的实际预测输出和样本的真实输出之间的差异称为”误差“,学习器在训练集上的误差称为”训练误差“,在新样本上的误差称为”泛化误差“。过拟合与欠拟合:把训练样本自身的一些特点当作了潜在样本都会具有的一般性质,这洋就会导致泛化性能的下降,此现象称为”过拟合“,相对原创 2021-04-30 09:03:04 · 532 阅读 · 0 评论 -
《机器学习》Chapter 1 绪论——机器学习中的基本概念和术语
《机器学习》Chapter 1 绪论机器学习中的基本概念和术语分类、回归、聚类:若我们预测的是离散值,此类学习任务称为“分类”,若预测任务是连续值,此类学习任务称为“回归”。监督学习、无监督学习:根据训练数据集中是否拥有标记信息,学习任务可大致分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,而聚类是后者的代表。...原创 2021-04-29 08:46:22 · 258 阅读 · 0 评论