机器学习算法
文章平均质量分 92
sinat_32910305
这个作者很懒,什么都没留下…
展开
-
算法梳理三:决策树
决策树是一种很简单的算法,它既可以作为分类算法也可以作为回归算法,但它更常见的是用于分类算法中。决策树可以看做是多组if-else规则的组合,所以它简单易懂解释性强容易实现且速度快,但是没有很强的理论保证,且易出现过拟合。决策树一般结构如下图所示:信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)是用来衡量一个系统混论程度的物理量,代表一个系统中蕴含多少信息量,信息量越大表明一个系统...原创 2018-12-14 23:12:04 · 165 阅读 · 0 评论 -
算法梳理第一期:线性回归
1、机器学习基本概念损失函数损失函数是针对一个样本计算该样本真实的yiy_iyi值与模型预测的值f(xi)f(x_i)f(xi)之间的误差。以线性回归为例,下面若未指明,都是以线性回归为例,损失函数L(yi,f(xi))=12(yi−f(xi))2L(y_i,f(x_i))=\dfrac12(y_i-f(x_i))^2L(yi,f(xi))=21(yi−f(xi))2代价函...原创 2018-12-09 23:02:09 · 217 阅读 · 0 评论 -
算法梳理二:逻辑回归
1. 逻辑回归原理逻辑回归,从名称上看是一种回归算法,但事实上是一种分类算法,逻辑回归是通过将线性回归预测的值通过一个sigmoid函数压缩到(0,1)的空间,在二分类问题中,样本类别是(0,1),逻辑回归预测的是一个样本标记为1的概率,样本对应输出一般是0或者1,这里一般会通过设定一个阈值来返回样本对应类别,若sigmoid函数输出的概率值大于阈值,那么对应输出为1,反之为0。2. 预测函数...原创 2018-12-12 19:55:49 · 355 阅读 · 0 评论 -
《西瓜书》决策树部分公式推导
1、公式4.1注解熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。假定当前样本集合D中第kkk类样本所占的比例为pk(k=1,2,...,∣y∣)p_k(k =1,2,...,|y|)pk(k=1,2,...,∣y∣),则DDD的信息熵为:Ent(D)=−∑k=1∣y∣pklog2pkEnt(D) =-\sum_...原创 2019-01-10 00:27:39 · 364 阅读 · 0 评论