![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
hasy_qiu
这个作者很懒,什么都没留下…
展开
-
sklearn.preprocessing中的StandardScaler、normalize、Normalizer和LASSO中的Normalize=True
在使用以RBF为核函数的SVM时,或使用L1或L2正则化的线性模型时,通常要求各个特征具有相似的方差,否则拥有较大方差的特征将主导梯度下降的过程,从而导致无法得出真正的最优解。因此,在做之前要求对数据进行标准化,即对于每个特征(数据中的每一列)进行标准化 Xi=Xi−X¯sdX" role="presentation">Xi=Xi−X¯¯¯¯sdXXi=Xi−X¯sd原创 2018-02-01 22:09:35 · 3912 阅读 · 0 评论 -
决策树
昨天看一个机器学习面试材料的时候,发现他把C4.5算法中信息增益率描述为信息增益与之前熵的比值。这个有问题,在周志华书中确认了这一点,即增益率描述的是信息增益与(该特征IV值,其实就是熵)的比值,公式描述如下: Gain(D,a)IV(a)" role="presentation">Gain(D,a)IV(a)Gain(D,a)IV(a)\frac{Gain(D,a)}{IV(a)} IV(a原创 2018-02-01 22:30:18 · 303 阅读 · 0 评论 -
VC维
VC维描述的是一个机器学习算法的学习能力,基于该学习方法能否实现任何一种标记组合(能否实现一个数据集上所有可能的对分)(能否将一个数据集打散)。维数表示其能够将样本量为多大的数据集打散。打散是指可以实现所有可能的标记组合。例如,对于二分类问题,一个样本数量为m的数据集D所对应的标记组合可能为2m" role="presentation" style="position: relative;">原创 2018-02-02 18:31:27 · 332 阅读 · 0 评论 -
支持向量机
对于所有的数据点,其到分割面的距离为 |wx+b|‖w‖" role="presentation">|wx+b|∥w∥|wx+b|‖w‖\frac{\lvert wx+b \rvert}{\lVert w\rVert} 假设完全线性可分,同时假设支持向量距离分割面的距离为 k‖w‖" role="presen原创 2018-01-29 20:15:17 · 168 阅读 · 0 评论 -
天池智能工业大赛大佬们的思路(需要再看)
打酱油参加了天池工业AI大赛1,当然没拿到奖,看决赛答辩直播时见识到了大佬们的各种思路,真是大开眼界。记录一下,留给以后参考。1. 特征构造这个是相当重要的 第一名那个女孩子并没有用什么高深的方法,但是对特征挖掘的特别好,并且提到我们可能要 “人工”智能,即是人为创造数据。1) 通过每个特征原始值与均值的差异,差异的绝对值构造。2) 通过可能特征的四则运算构造特征(当然,这是剔除掉原创 2018-02-07 10:57:45 · 1380 阅读 · 1 评论