机器学习常见问题
文章平均质量分 81
Nicole_Liang
这个作者很懒,什么都没留下…
展开
-
一、特征选择常用算法综述
1 综述 (1)什么是特征选择特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ,或属性选择( AttributeSelection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2)为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其中可能存在不...转载 2018-04-23 16:41:04 · 377 阅读 · 0 评论 -
九、机器学习一些基本概念
一、数据科学项目的各个阶段1.定义业务问题 Albert Einstein once quoted “Everything should be made as simple as possible, but not simpler” 这句话是定义业务问题的关键。 需要开发和构建问题陈述。需要建立明确的成功标准。根据我的经验,业务团队忙于处理他们的操作任务。这并不意味着他们没...翻译 2018-07-18 19:28:59 · 229 阅读 · 0 评论 -
七、基于机器学习方法对销售预测的研究
基于机器学习方法对销售预测的研究在开始今天的分享之前,我首先跟大家简单的聊一下,刚刚过去的双十一,大家可能更关心的是双十一的折扣,什么商品打了什么折扣。但是对于天猫而言,他们可能更关心的是双十一当天的销售额是多少,因为知道销售额,他就能提前做一个准备,做到未雨绸缪。作者:唐新春来源:大数据杂谈|2016-12-28 15:19 收藏 分享 很高兴“InfoQ”团队和“...转载 2018-06-19 16:59:39 · 16088 阅读 · 0 评论 -
六、Sklearn-CrossValidation交叉验证
交叉验证概述进行模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度(用全部数据进行训练和测试)来衡量模型的表现,这种方法会导致模型过拟合;为了解决这一问题,我们将所有数据分成训练集和测试集两部分,我们用训练集进行模型训练,得到的模型再用测试集来衡量模型的...转载 2018-09-14 09:33:29 · 516 阅读 · 0 评论 -
四、如何测试模型在真实数据上的表现
1.对照实验。在实验中设置对照组,为了与即将进行实验的组进行对比,减少实验中一些不确定因素的影响。将数据分成两部分,实验组和对照组,检验实验组合对照组在统计意义上是否有明显差异2.观察性实验。在实际研究中,研究者可能无办法去控制一些影响因素,例如:(1)随机对照实验违反伦理道德。(2)研究者无法控制因素的发生与否。(3)在实际应用中可能由于控制因素的成本太大,也可能会采取这种方...原创 2018-09-03 14:50:27 · 3210 阅读 · 0 评论 -
五、python 缺失值处理(Imputation)
一、缺失值的处理方法 由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit - learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。 使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会...原创 2018-06-08 19:48:59 · 21172 阅读 · 0 评论 -
四、数据标准化 Scikit-learn Preprocessing
一、标准化、去均值、方差缩放(variance scaling)1.原理介绍 通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。有很多数据规范化的方法,这里我们将介绍三种:最小--最大规范化,z-score规范化,按小数定标规范化和最大绝对值缩放。下面简单介绍着几种规范化的原理:(1)最小--最大规范化 最小--最...原创 2018-06-08 16:23:59 · 983 阅读 · 0 评论 -
八、使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 ...转载 2018-07-12 15:07:20 · 181 阅读 · 0 评论 -
三、机器学习算法的优点和缺点
数据人网 • 2018-06-01 23:37 • 人工智能 • 阅读 282 从Logistic回归开始,然后尝试Tree Ensembles和/或Neural Networks。奥卡姆的剃刀原理:使用最简单的算法,可以满足您的需求,并且只有在严格需要的情况下才用更复杂的算法。根据我自己的经验,只有神经网络和梯度增强决策树(GBDT)正在工业中广泛使用。 我目睹Logistic回归...转载 2018-07-30 18:34:07 · 806 阅读 · 0 评论 -
二、算法太多挑花眼?教你如何选择正确的机器学习算法
张乐 • 2018-07-05 09:09 • 人工智能 • 阅读 1543机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不是有时候觉得挑花了眼呢? 作者 Rajat Harlalka 编译 Geek AI、张倩 本文转自机器之心机器学习算法虽多,却没有什么普适的解决方案。决策树、随机森林、朴素贝叶斯、深度网络等等等等,是不...转载 2018-07-30 18:23:50 · 368 阅读 · 0 评论 -
十、假设检验
Edward Teller, the famous Hungarian-American physicist, once quoted:“A fact is a simple statement that everyone believes. It is innocent, unless found guilty. A hypothesis is a novel suggestion that...翻译 2018-07-18 20:19:12 · 558 阅读 · 0 评论