机器学习
_PYX
这个作者很懒,什么都没留下…
展开
-
使用sklearn做单机特征工程
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:转载 2016-07-19 14:57:46 · 537 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
转载:使用sklearn优雅地进行数据挖掘1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法fit、transform和fit_transform,fit方法居然和模型训练转载 2016-10-16 12:52:47 · 684 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法转载 2016-10-16 13:07:31 · 544 阅读 · 0 评论 -
机器学习中的范数规则化之(二)核范数与规则项参数选择
我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 三、核范数 核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclea Norm。这个相对于上面火热的L1和L2来说,可能大家就会陌生点。那它是干嘛用的呢?霸气登场:约束Low-Rank(低秩)。OK,OK,那我们得知道Low-Rank是啥?用来干啥的转载 2016-10-16 13:10:14 · 572 阅读 · 0 评论 -
【笔记】决策树
根据子树划分属性的选择的方法不同,可以分为不同的决策树算法1. ID3使用 信息增益 来选择最优的划分属性, 选择信息增益最大的属性进行划分。信息熵 = - p * log(p) a属性的信息增益 = 划分前信息熵 - a属性划分后的信息熵 2. C4.5使用 信息增益率 来选择最优划分属性,因为 ID3中信息增益是对 属性取值数目多的属性有偏好,需要减原创 2017-08-06 16:49:21 · 459 阅读 · 0 评论