《机器学习实战》笔记
文章平均质量分 83
《机器学习实战》学习笔记
未名湖畔的落叶
圆月照方窗,有规有矩。长竿垂短钓,能屈能伸。
展开
-
K近邻算法:KNN
K近邻 (kNN) 算法是一种基本分类与回归方法,通俗的理解为给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分为这个类。经典描述 如下图,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形。如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3...原创 2018-09-28 10:19:21 · 517 阅读 · 0 评论 -
决策树算法:CART
我们前面讲了两种决策树算法ID3ID3ID3和C4.5C4.5C4.5,还有一种比较经典的决策树算法就是CARTCARTCART,也叫分类回归树算法,它是一种二分递归分割算法,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CARTCARTCART算法构成的是一个二叉树,因此它在每一步的决策时只能用是或者否,不管一个特征有多...原创 2018-10-19 12:05:41 · 387 阅读 · 0 评论 -
决策树算法:ID3
决策树是最经常使用的数据挖掘算法,其核心是一个贪心算法,它采用自顶向下的递归方法构建决策树,下面是一个典型的决策树: 目前常用的决策树算法有ID3算法、改进的C4.5,C5.0算法和CART算法 ID3算法的核心是在决策树各级节点上选择属性时,用信息增益作为属性的选择标准,使得在每一个非节点进行测试时,能获得关于被测试记录最大的类别信息。熵和信息增益 设S是训练样本集...原创 2018-09-01 11:31:18 · 24921 阅读 · 15 评论 -
决策树算法:C4.5
前面我们讲到了ID3ID3ID3算法,也知道了如何选择决策树分裂的属性,但是有人发现ID3ID3ID3算法不能对连续的数据进行处理,只能将连续的数据离散化处理,同时ID3ID3ID3算法并没有做剪枝处理,导致决策树可能会过于复杂导致过拟合。于是在这个基础上衍生出了C4.5C4.5C4.5算法。 C4.5C4.5C4.5针对ID3ID3ID3主要做出了以下几种优化: 1. 通过信息增...原创 2018-10-19 09:18:05 · 486 阅读 · 0 评论 -
朴素贝叶斯:bayes
朴素贝叶斯分类是一种常用的分类算法,他根据研究对象的某些特征,来推断出该研究对象属于该研究领域的哪个类别。1. 概述 要了解朴素贝叶斯分类,就需要先知道贝叶斯分类定理,这就离不开条件概率,下面概率论中经典的条件概率公式:P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X) = \frac{{P(X|Y)P(Y)}}{{P(X)}}P(Y∣X)=P(X)P(X∣Y)P(Y)根据上面的...原创 2018-10-04 16:38:59 · 938 阅读 · 0 评论 -
基于朴素贝叶斯的情感分析
在上一张中我们简单的分析了一下朴素贝叶斯的原理和简单应用,我们提到了它主要使用在文本分析,邮件拦截,情感分析等等场景,这里我们就简单的做一个情感分析的处理。1. 数据搜集 这里的数据是我们从京东上爬的某种商品的好评和差评,这里就不详细讲解爬取的过程了。好评:差评:2. 数据处理 由上节我们知道,一个完整的文本不能直接拿来训练,所以在训练之前,我们需要将自己的语句分词,构建词...原创 2018-10-05 11:21:35 · 12075 阅读 · 15 评论 -
逻辑回归:LR
逻辑回归简单说就是将数据拟合到一个logisticlogisticlogistic函数中,从而能够完成对事件发生的概率进行预测。虽然名字叫做回归,但是其实质上却是一个分类问题,主要适用于二分类。 逻辑回归算法速度快,适合二分类问题,容易理解,可直接看到各特征的权重,而且很容易更新模型吸收新的数据,但是对数据和场景的适应能力有局限性,不如决策树算法适应性那么强。 注:这里我就不讲逻辑回归...原创 2018-10-08 17:15:59 · 398 阅读 · 0 评论 -
支持向量机:SVM
SVM 是一种监督式的机器学习算法,可用于分类或回归问题。它使用一种称为核函数的技术来变换数据,然后基于这种变换,算法找到预测可能的两种分类之间的最佳边界。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。1. 线性SVM 线性可分的二分类问题:上图中红色和蓝色分别表示不同...原创 2018-10-13 17:31:24 · 372 阅读 · 0 评论 -
集成算法
RF通过Bagging的方式将许多个CART组合在一起,不考虑计算代价,通常树越多越好。RF中使用CART没有经过剪枝操作,一般会有比较大的偏差(variance),结合Bagging的平均效果可以降低CART的偏差。在训练CART的时候,使用有放回的随机抽取样本(bootstraping)、随机的抽取样本的特征、甚至将样本特征通过映射矩阵P投影到随机的子空间等技术来增大g(t)的随机性、多样...原创 2019-02-27 14:54:54 · 451 阅读 · 0 评论 -
集成算法:随机森林
在集成算法这一章中,我们大概的阐述了一下常用的两种集成算法,这里我们就具体研究一下 baggingbaggingbagging 算法中最常用的模型:随机森林。 由前面我们了解:baggingbaggingbagging + 决策树 = 随机森林,所以在学习随机森林之前,我们必须了解决策树相关的知识,这些我在ID3,C4.5,CART中已经比较详细的讲过一遍,这里就不在赘述了,有不懂的童鞋可...原创 2019-02-27 16:30:58 · 774 阅读 · 0 评论 -
聚类算法:K-Means
K-Means聚类算法是一种基于距离的聚类算法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则,最终的目标就是根据输入参数K,将数据对象分为K个簇。算法采用误差平方和准则函数作为聚类准则函数。 基本思想: 1、指定需要划分的簇的个数K值 2、随机选取K个初始聚类中心 3、计算各个数据到这K个初始聚类中心的距离,把数据...原创 2018-07-25 11:17:40 · 1112 阅读 · 1 评论