机器学习西瓜书读书笔记
文章平均质量分 75
九点澡堂子
这个作者很懒,什么都没留下…
展开
-
《机器学习西瓜书》学习笔记——第一章_绪论整理
1. 机器学习应用领域和案例1.1应用领域数据挖掘:数据之间的关系计算机视觉自然语言处理语音识别 机器人决策1.2 案例血糖值的预测 有无糖尿病的预测 图像分类 目标检测语义分割 场景理解 文本分类 输出文本摘要 翻译 问答 人机对话 image to text end to end(端到端)级自动驾驶 玩赛车游戏(...原创 2018-09-01 22:37:57 · 433 阅读 · 0 评论 -
CS231n——机器学习算法——线性分类(中:SVM及其损失函数)
损失函数 Loss function在线性分类(上)笔记中,定义了从图像像素值到所属类别的评分函数(score function),该函数的参数是权重矩阵W。在函数中,数据(xi,yi)(x_i,y_i)(xi,yi)是给定的,不能修改。但是我们可以调整权重矩阵这个参数,使得评分函数的结果与训练数据集中图像的真实类别一致,即评分函数在正确的分类的位置应当得到最高的评分(score)。回到...原创 2018-10-10 17:23:15 · 5357 阅读 · 1 评论 -
《机器学习西瓜书》学习笔记——第四章_决策树
1. 基本概念决策树是一类常见的机器学习算法,是一种简单但是广泛使用的分类器。顾名思义,决策树基于树结构进行决策。一般的,一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应一个判定测试序列。决策树学习的目的是为了产生一颗泛化能...原创 2018-10-07 21:17:23 · 490 阅读 · 0 评论 -
损失函数,代价函数,经验风险,结构风险的理解和区别
理解有争议,暂时放这里,后续优化。损失函数:定义在单个训练样本的损失/误差,也就是就算一个样本的误差,比如我们想要分类,就是预测的类别和实际类别的区别,是一个样本的。代价函数(Cost function):定义在整个训练集整体的误差描述,也就是所有样本的误差的总和的平均,也就是损失函数的总和的平均。也有理解为:代价函数(Cost function):定义在整个训练集整体的误...原创 2018-10-07 16:50:10 · 3234 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型:对数几率回归(逻辑回归)
1.经典线性模型介绍logistic回归算法描述:2. 对数几率回归(logistic regression)Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。假设函数:其中x...原创 2018-10-07 16:20:18 · 1890 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第六章_支持向量机
1、简介支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;当训练样本线性不可分时,通过核技巧和软间隔最大化...原创 2018-09-23 22:00:40 · 2913 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第七章_贝叶斯分类器_朴素贝叶斯分类器
朴素:特征条件独立;贝叶斯:基于贝叶斯定理。朴素贝叶斯是经典的机器学习算法之一,也基于概率论的分类算法,属于监督学习的生成模型。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。1.算法思想——基于概率的预测贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的标记类别。2. 理论基...原创 2018-09-23 19:59:52 · 1175 阅读 · 0 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型:线性回归
1. 线性模型_基本形式向量形式为: y^=ωTy^=ωT\hat{y} = \omega^Txxx + bbbωω\omega,bbb为需要学习的参数ωω\omega直观表达了各属性在预测中的重要性,因此线性模型有很好的解释性。2. 经典的线性模型介绍线性回归(linear regression) &am原创 2018-09-05 23:40:46 · 928 阅读 · 2 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型_类别不平衡问题
类别不平衡是指分类任务中不同类别的训练样例数目相差很大现有技术大体上有三类做法解决此问题: 1. 欠采样 2. 过采样 3. 阈值移动/再缩放1. 欠采样直接对训练集里的反类样例进行欠采样,即去除一些反例使得正反例数目接近,然后再进行学习。欠采样若随机丢弃反例,可能会丢失重要信息。代表性算法:EasyEmsemble,利用集成学习机制,将反例划分为若干个集合,供不同学...原创 2018-09-08 21:53:02 · 492 阅读 · 0 评论 -
交叉熵
这篇文写的挺好的,自己只看一遍记不得,所以只是搬运一下https://blog.csdn.net/tsyccnh/article/details/79163834回顾:线性回归:损失函数(目标函数) 最小二乘法: 矩阵法,数学方法求解,求导逻辑回归:模型参数求解方法:极大似然估计交叉熵交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。1 ...原创 2018-10-17 16:06:00 · 865 阅读 · 0 评论