西瓜书
至味清欢
这个作者很懒,什么都没留下…
展开
-
机器学习 第6章 支持向量机 概念总结和简单实践
支持向量机解决的问题:在线性可分数据集上所有的划分超平面中寻找一个最优的超平面,它的解是唯一的。寻找最优超平面的策略:最大化支持向量样本点与超平面的间隔,这样泛化能力最好。核函数解决的问题:给非线性划分问题提供了线性解决的方法,即将实际的非线性数据集通过核函数映射到高维空间,使其在转换空间线性可分,然后再求解。概念总结:习题 6.2 使用LIBSVM 线性核和高斯核对西瓜数据集...原创 2019-03-14 19:07:12 · 1444 阅读 · 1 评论 -
机器学习 第10章 降维与度量学习 概念总结与简单实践
一 解决的问题由k近邻算法引出,k近邻算法需要满足密采样,稀疏数据无法获取特定距离的近邻。但是现实问题中,数据属性非常多,形成高维空间,然而在高维空间下的计算量大,并且满足不了密采样的要求。于是,提出降维的方法,希望通过降维在低维空间映射出密采样,也易于学习。如何降维才能保证仍然保存高维空间数据的特征的呢?一种方法:希望在高低维空间,样本之间的距离是不变的,称为多维缩放,简称...原创 2019-03-19 19:06:23 · 589 阅读 · 0 评论 -
机器学习 第7章 贝叶斯分类器 概念总结和简单实践
贝叶斯分类器是基于概率的计算,即如果有一个样本待预测,各属性已知,那么我们就找出符合这些属性的类别概率,把概率最大的作为该样本的label。如何计算符合这些属性的类别概率(后验概率)呢?在概率与统计中,有一个定理,P(Y,X) = P(X)P(Y|X) = P(Y)P(X|Y),如果我们把X看作属性,把Y看作分类结果label,那么我们想要得到的就是在属性X已知的情况下,各类别P(Y|X)...原创 2019-03-16 00:06:24 · 565 阅读 · 0 评论 -
机器学习 第11章 特征选择与稀疏学习 概念总结与简单实践
一 解决的问题跟第10章降维的思想相同,特征选择目的也是想减少用于计算的特征,尽可能从最少的特征得到准确的结果。不过同降维不同的是,特征选择更关注特征本身是否有用,思路是只选取与问题求解有益的特征进行建模。由此,将特征划分为 相关特征、无关特征、冗余特征。那么定义特征是否有用的标准是什么呢?可以借助于第8章的多样性度量进行比较,把Class的label作为一种划分,把属性的切分作为...原创 2019-03-20 15:58:58 · 562 阅读 · 0 评论 -
机器学习 第8章 集成学习 概念总结和简单实践
一 解决的问题集成学习,就是把前几章的经典可推导的模型结合起来,将一系列学习器的结果加工一下形成最终结果的学习模型。为什么将弱学习器结合起来能够提升准确率呢?其实准确地说,并不是随意将学习器组合起来就有提升准确度的效果,而是要求这些弱学习器要有一定的准确度,并且学习器之间要有差异,这样才能保证组合起来能够减少错误率。而且,基于误差-分歧分解的分析,得出结论,个体学习器准确性越高,多样性...原创 2019-03-16 19:09:17 · 414 阅读 · 0 评论 -
机器学习 第4章 决策树 概念总结和简单实践
第四章 决策树 概念图解第一遍sklearn直接上手实践:习题4.3 基于信息增益的决策树对西瓜集进行分类:西瓜集表4.3如下:色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好坏 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46 好瓜 乌黑 蜷缩...原创 2019-03-13 00:03:11 · 258 阅读 · 0 评论 -
机器学习 第5章 神经网络 概念总结和简单实践
神经网络概念总结:单层神经网络无隐层,为感知机,是神经网络的起源。在输入层和输出层之间加上隐层,隐层同样具有和输出层一样的神经元功能,形成神经网络。概念总结导图:习题简单实践:习题5.5 用单隐层网络训练西瓜数据集3.0.# first round -- sklearnimport pandas as pdimport numpy as npdata = pd....原创 2019-03-13 17:52:11 · 299 阅读 · 0 评论 -
机器学习 第9章 聚类 概念总结和简单实践
一 解决的问题聚类属于无监督学习中的方法,目的在于在未标注label的数据集中找到潜在规律,并将数据进行聚类。因为没有给定label,基本流程都是先随机产生样本作为计算中心,计算其他样本与中心的距离,距离近的划为同类;迭代簇的数据中心,再进行下一轮计算,直到簇内数据不再变化或者达到停止条件,比如到达设定的簇数。二 概念总结三 习题题9.4 基于西瓜集4.0设置三组不同...原创 2019-03-18 21:48:43 · 538 阅读 · 1 评论