西瓜书读书笔记
文章平均质量分 68
《机器学习》
及时行樂_
方向:航空数据异常/攻击检测及分析,欢迎私信交流,共同进步~
展开
-
《机器学习》(西瓜书)-读书笔记汇总贴(汇总16/16)
本文章主要用来记录学习周志华老师的《机器学习》(西瓜书)的学习笔记,主要根据课本内容来,初步打算按照章节目录将知识点慢慢整理,希望能互相学习,共同提高!目录西瓜书读书笔记(一)-绪论(待更新)西瓜书读书笔记(二)-模型评估与选择(待更新)西瓜书读书笔记(三)-线性模型(待更新)西瓜书读书笔记(四)-决策树(待更新)西瓜书读书笔记(五)-神经网络(待更新)西瓜书读书笔记(六)-支持向量机(待更新)西瓜书读书笔记(七)-贝叶斯分类(待更新)西瓜书读书笔记(八)-集成学习(待更新)西瓜书读书笔原创 2021-01-26 13:29:40 · 1011 阅读 · 0 评论 -
西瓜书读书笔记(十六)-强化学习
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、任务与奖赏二、K-摇臂赌博机三、有模型学习四、免模型学习五、值函数近似六、模仿学习原创 2021-01-26 14:06:11 · 293 阅读 · 0 评论 -
西瓜书读书笔记(十五)-规则学习
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、基本概念规则学习是从训练数据中学习出一组能用于对未见示例进行判别得规则。命题规则一阶规则二、序贯覆盖规则学习的目标是产生一个能覆盖尽可能多的样例的规则集. 最直接的做法是 “序贯覆盖” (sequential covering),即逐条归纳:在训练集上每学到一条规则, 就将该规则覆盖的训练样例去除,然后以剩下的训练样例组成训练集重复上述过程。由于每次只处理一部分数据,因此也被称为“分治”策略。三、剪枝优化规则生成本质上是一个贪心搜索原创 2021-01-26 14:01:43 · 387 阅读 · 0 评论 -
西瓜书读书笔记(十四)-概率图模型
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、隐马尔可夫模型白板推导系列笔记(十四)-隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,简称HMM)是结构最筒单的动态贝叶斯网(dynamic Bayesian network),这是一种著名的有向图模型,主要用于 时序数据建模,在语音识别、 自然语言处理等领域有广泛应用。状态转移概率输出观测概率初始态度概率二、马尔科夫随机场马尔可夫随机场(Markov Random Field ,简称MRF)是典型的马尔可夫原创 2021-01-26 13:42:24 · 283 阅读 · 0 评论 -
西瓜书读书笔记(十三)-半监督学习
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、未标记样本半监督学习可进一步划分为纯半监督学习和直推学习。前者假定训练数据中的未标记样本并非带预测的数据,后者则是假定学习过程中所考虑的未标记样本恰是带预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。二、生成式方法生成式方法(generative methods)是直接基于生成式模型的方法。此类方法假设所有数据(无论是否有标记)都是由同一个潜在的模型生成的。三、半监督SVM半监督支持向量机(Semi-Supervised Su原创 2021-01-26 13:28:44 · 468 阅读 · 0 评论 -
西瓜书读书笔记(十二)-计算学习理论
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、基础知识二、PAC学习三、有限假设空间四、VC维五、Rademacher复杂度六、稳定性原创 2021-01-25 18:04:51 · 318 阅读 · 0 评论 -
西瓜书读书笔记(十一)-特征选择与稀疏学习
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、子集搜索与评价特征选择是一个重要的 “数据预处理” (data preprocessing)过程,在现实机器学习任务中在获得数据之后通常先进行特征选择,此后再训练学习器。我们在现实任务中经常会遇到维数灾难问题,这是由于属性过多而造成的,若能从中选择出重要的特征, 使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题会大为减轻。特征选择过程必须确保不丢失重要特征,否则后续学习过程会因为重要信息的缺失而无法获得好的性能。子集搜索子集原创 2021-01-25 18:01:53 · 276 阅读 · 0 评论 -
西瓜书读书笔记(十)-降维与度量学习
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、k近邻学习比较简单,下面的这篇文章有写,就不赘述了。统计学习方法读书笔记(十四)-聚类方法二、低维嵌入在高维情形下出现的数据样本稀疏、距离计算困难等问题?是所有机器学习方法共同面临的严重障碍,被称为 “ 维数灾难” 。缓解维数灾难的一个重要途径是降维 ,亦称“维数约简"。MDS算法三、主成分分析最近重构性最大可分性四、核化线性降维基于核技巧对线性降维方法进行核化。核主成分分析KPCA五、流形学习流形学习(man原创 2021-01-24 19:24:26 · 440 阅读 · 0 评论 -
西瓜书读书笔记(九)-聚类
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、聚类任务二、性能度量三、距离计算四、原型聚类五、密度聚类六、层次聚类原创 2021-01-22 21:44:28 · 255 阅读 · 0 评论 -
西瓜书读书笔记(八)-集成学习
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、个体与集成集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统(multi-classifier system)、基于委员会的学习(committee-based learning)等。先组织一组“个体学习器”,再用某种策略将他们结合起来。Boosting:个体学习器间存在强依赖关系、必须串行生成的序列化方法Bagging 和 “随机森林” (Random Forest):个体学习器原创 2021-01-22 20:03:28 · 268 阅读 · 0 评论 -
西瓜书读书笔记(七)-贝叶斯分类器
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法,对分类任务来说在所有相关概率都己知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率P(c∣x)P(c|x)P(c∣x)。判别式模型:给定xxx,可直接通过建模P(c∣x)P(c|x)P(c∣x)来预测ccc;生成式模型:先对联合概率分布P(x,c)原创 2021-01-20 18:09:37 · 274 阅读 · 0 评论 -
西瓜书读书笔记(六)-支持向量机
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴感觉支持向量机写过好几个,直接贴链接了:白板推导系列笔记(六)-支持向量机统计学习方法读书笔记(七)-支持向量机上面那个里面有B站大佬的系列推导,下面的是根据李航老师的《统计学习方法(第二版)》写的。...原创 2021-01-20 16:44:07 · 290 阅读 · 0 评论 -
西瓜书读书笔记(五)-神经网络
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、神经元模型神经网络是由具有适应性的 简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元(neuron)模型,许多的神经元按一定的层次结构连接起来,就得到了神经网络。二、感知机与多层网络感知机(Perceptron)由两层神经元组成。只有输出层神经元进行激活函数处理,即只拥有一层功能神经元(functional neuron),其学习能力非常有限。要解决非线性可分问题,需原创 2021-01-19 14:55:46 · 410 阅读 · 0 评论 -
西瓜书读书笔记(四)-决策树
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴可以先看看这个:统计学习方法读书笔记(五)-决策树一、基本流程决策树(decision tree)是一类常见的机器学习方法。二、划分选择通过信息增益或信息增益率,还有就是基尼系数,具体的过程在上面链接里那篇文章讲的很详细。三、剪枝处理上面链接里那篇文章讲的很详细。四、连续与缺失值连续值:采用二分法对连续的属性进行处理,这也是C4.5决策树算法采用的机制。缺失值:通过计算信息增益,让同一样本以不同的概率划入到不同的子节点中去。五、多变量原创 2021-01-18 20:25:23 · 279 阅读 · 0 评论 -
西瓜书读书笔记(三)-线性模型
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、基本形式线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,我们一般用向量的形式来表示,f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b因为www直观地表达了各属性在预测中地重要性,因此线性模型有很好地可解释性。二、线性回归样本可能由多个属性描述,此时我们试图学得f(xi)=wTxi+b,使得f(xi)≈yif(x_i)=w^Tx_i+b,使得f(x_i)\approx y_if(xi)=wTx原创 2021-01-17 18:32:47 · 378 阅读 · 1 评论 -
西瓜书读书笔记(二)-模型评估与选择
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、经验误差与过拟合我们把学习器的实际预测输出与样本的真实输出之间的差异称为 “误差” (error),学习器在训练集上的误差称为“训练误差”(training error)或 “经验误差”,在新样本上的误差称为“泛化误差”。显然我们的目的时找一个泛化误差小的学习器,但因为我们事先不知道新样本是怎样的,所以只能努力使经验误差最小化。但是当经验误差足够小,甚至对所有的训练样本都分类正确,会产生过拟合。多种因素可能导致过拟合,其中最常见的情况是由于学习能原创 2021-01-16 13:54:35 · 426 阅读 · 1 评论 -
西瓜书读书笔记(一)-绪论
全部笔记的汇总贴:《机器学习》西瓜书-读书笔记汇总贴一、简介机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。二、术语数据集:对单个样本特征进行描述的记录集合。每条记录时关于一个事件或对象的描述,称为“示例”或“样本”,反映事件或对象在某方面的表现或性质的事项称为“属性”或“特征”。…(发现这块儿也没啥好说的,这些概念用多了就能明白在说啥,实在不懂就看看书吧)三、假设空间归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的原创 2021-01-15 17:49:44 · 552 阅读 · 0 评论