2016年12月_liulingyuan6

原创数据质量管理十步流程

1定义业务需求和方法明确数据质量管理的重点、时机和目标，来指导整个项目期间的所有工作。目标： 1.明确信息环境－数据、流程、人员、组织以及与业务情况相关的技术。 2.按顺序排列并最终确定项目重点关注的业务问题。输入： 1.亟需解决的数据质量业务需求和时机 2.已知现存的数据质量问题 3.企业的需求（以及任何对当前信息环境有帮助的

2016-12-30 17:21:18 10842

原创机器学习算法应用场景实例六十则

本文整理了60个机器学习算法应用场景实例，含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。—————————————————————————————————————————————————————————————————————————————目录1

2016-12-14 22:19:23 84836 10

原创关联规则应用场景实例十则

本文整理了7个天池、DataCastle、CCF中可使用关系分析算法处理的问题场景。1 穿衣搭配推荐穿衣搭配是服饰鞋包导购中非常重要的课题，基于搭配专家和达人生成的搭配组合数据，百万级别的商品的文本和图像数据，以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配模型，为用户提供个性化、优质的、专业的穿衣搭配方案，预测给定商品的搭配商品集合。2 互联网情

2016-12-14 13:13:33 35905 1

原创聚类算法应用场景实例十则

本文整理了5个天池、DataCastle、CCF中可使用回归算法处理的问题场景。1 基于用户位置信息的商业选址随着信息技术的快速发展，移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时，会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及，结合用户位置和GIS地理信息将带来创新应用。如百度与万达进行合作，通过定位用户的位置，结合万达的商户信息

2016-12-14 13:11:14 51587 3

原创回归算法应用场景实例二十则

本文整理了12个天池、DataCastle、CCF中可使用回归算法处理的问题场景。1 机场客流量分布预测为了有效利用机场资源，机场正利用大数据技术，提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口，航站楼外的停机位、廊桥、车辆（摆渡车、清洁车、物流车、能源车），要想提升这些资源的利用率首先需要知道

2016-12-14 13:06:50 17537

原创分类算法应用场景实例二十则

本文整理了18个天池、DataCastle、CCF中可使用分类算法处理的问题场景。1 O2O优惠券使用预测以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言，滥发的优惠券可能降低品牌声誉，同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术，它可以让具有一定偏好的消费者得到真正的实惠，同

2016-12-14 12:12:11 32103 5

翻译 Spark机器学习库（MLlib）官方指南手册中文版

Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具： 1.机器学习算法：常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征工程：特征提取、特征转换、特征选择以及降维。 3.管道：构造、评估和调整的管道的工具。 4.存储：保

2016-12-12 14:23:35 29036

翻译 Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)

本文中，我们介绍机器学习管道的概念。机器学习管道提供一系列基于数据框的高级的接口来帮助用户建立和调试实际的机器学习管道。管道里的主要概念 MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流，管道的概念源于scikit-learn项目。 1.数据框：机器学习接口使用来自Spark SQL的数据框形式数据作为数据集，它可以处理多种数据类型。比如，一个数据

2016-12-11 23:04:54 13774 3

翻译三种线性问题的优化

三种线性方法优化方法有限记忆BFGS(L-BFGS) L-BFGS是拟牛顿方法家族里的一个优化算法，解决形式的优化问题。L-BFGS方法以二次方程来逼近目标函数来构造黑塞矩阵，不考虑目标函数的二阶偏导数。黑塞矩阵由先前的迭代评估逼近，所以不像直接使用牛顿方法一样可垂直扩展（训练特征的数目）。所以L-BFGS通常比其他一阶优化方法能更快收敛。象限有限记忆拟牛顿(

2016-12-10 17:07:40 7904

翻译两种模型选择和超参数调整方法及Spark MLlib使用示例(Scala/Java/Python)

机器学习调试：模型选择和超参数调整模型选择（又名超参数调整）在机器学习中非常重要的任务就是模型选择，或者使用数据来找到具体问题的最佳的模型和参数，这个过程也叫做调试。调试可以在独立的如逻辑回归等估计器中完成，也可以在包含多样算法、特征工程和其他步骤的管线中完成。用户应该一次性调试整个管线，而不是独立的调整管线中的每个组成部分。MLlib支持交叉验证和训练验证分裂两个模型选

2016-12-09 14:50:13 7216

翻译交叉验证原理及Spark MLlib使用实例(Scala/Java/Python)

交叉验证方法思想： CrossValidator将数据集划分为若干子集分别地进行训练和测试。如当k＝3时，CrossValidator产生3个训练数据与测试数据对，每个数据对使用2/3的数据来训练，1/3的数据来测试。对于一组特定的参数表，CrossValidator计算基于三组不同训练数据与测试数据对训练得到的模型的评估准则的平均值。确定最佳参数表后，CrossValidat

2016-12-09 14:16:24 5973 1

翻译协同过滤(ALS)算法原理及Spark MLlib调用实例(Scala/Java/Python)

协同过滤算法介绍：协同过滤常被用于推荐系统。这类技术目标在于填充“用户－商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤，其中用户和商品以少量的潜在因子来描述，用以预测缺失项。Spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因子。＊注意基于DataFrame的ALS接口目前仅支持整数型的用户和商品编号。显式与隐式反馈基于矩阵分解的

2016-12-06 17:03:08 15495 6

翻译混合高斯模型(GMM)Spark MLlib调用实例(Scala/Java/Python)

高斯混合模型算法原理：混合高斯模型描述数据点以一定的概率服从k种高斯子分布的一种混合分布。Spark.ml使用EM算法给出一组样本的极大似然模型。参数：featuresCol:类型：字符串型。含义：特征列名。k:类型：整数型。含义：混合模型中独立的高斯数目。maxIter:类型：整数型。含义：迭代次数（>=0）。predictionCol

2016-12-06 15:23:38 3552

翻译二分K均值算法原理及Spark MLlib调用实例(Scala/Java/Python)

二分K均值算法算法介绍：二分K均值算法是一种层次聚类算法，使用自顶向下的逼近：所有的观察值开始是一个簇，递归地向下一个层级分裂。分裂依据为选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目k为止。二分K均值常常比传统K均值算法有更快的计算速度，但产生的簇群与传统K均值算法往往也是不同的。BisectingKMeans是一个E

2016-12-06 14:43:54 2516 1

翻译文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)

文档主题生成模型(LDA)算法介绍：LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督

2016-12-06 11:48:38 4932

翻译 K均值(K-means)算法原理及Spark MLlib调用实例(Scala/Java/python)

K均值（K-means）算法算法介绍：K-means是一个常用的聚类算法来将数据点按预定的簇数进行聚集。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。假设要把样本集分为c个类别，算法描述如下：（1）适当选择c个类的初始中心；（2）在第k次迭代中，对任意一个样本，求其到c个中心

2016-12-06 11:44:32 8911 2

翻译保序回归算法原理及Spark MLlib调用实例(Scala/Java/python)

保序回归算法介绍：保序回归是回归算法的一种。保序回归给定一个有限的实数集合代表观察到的响应，以及代表未知的响应值，训练一个模型来最小化下列方程：其中，为权重是正值。其结果方程称为保序回归，而且其解是唯一的。它可以被视为有顺序约束下的最小二乘法问题。实际上保序回归在拟合原始数据点时是一个单调函数。我们实现池旁者算法，它使用并行保序回归。训练数据是

2016-12-05 23:02:41 4189

翻译生存回归(加速失效时间模型)算法原理及Spark MLlib调用实例(Scala/Java/python)

生存回归（加速失效时间模型）算法介绍：在spark.ml中，我们实施加速失效时间模型（Acceleratedfailure time），对于截尾数据它是一个参数化生存回归的模型。它描述了一个有对数生存时间的模型，所以它也常被称为生存分析的对数线性模型。与比例危险模型不同，因AFT模型中每个实例对目标函数的贡献是独立的，其更容易并行化。给定协变量

2016-12-05 21:19:25 11456 1

翻译梯度迭代树回归（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）

梯度迭代树回归算法简介：梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似，梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。梯度提升树依次迭代训练一系列的决策树。在一次迭代中，算法使用现有的集成来对每个训练实例的类别进行预测，然后

2016-12-05 17:47:21 4325

翻译随机森林回归（Random Forest）算法原理及Spark MLlib调用实例（Scala/Java/python）

随机森林回归算法介绍：随机森林是决策树的集成算法。随机森林包含多个决策树来降低过拟合的风险。随机森林同样具有易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。随机森林分别训练一系列的决策树，所以训练过程是并行的。因算法中加入随机过程，所以每个决策树又有少量区别。通过合并每个树的预测结果来减少预测的方差，提高在测试集上的性能表现。

2016-12-05 17:38:37 19085 1

翻译决策树回归算法原理及Spark MLlib调用实例（Scala/Java/python）

决策树回归算法介绍：决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决分类和回归问题中表现最优的算法。决策树是一个贪心算法递归地将特征空间划分为两个部分，在同一个叶子节点的数据最后会拥有同样的标签。每次划分通过贪

2016-12-05 17:29:30 3162

翻译广义线性模型(GLMs)算法原理及Spark MLlib调用实例(Scala/Java/Python)

广义线性回归算法介绍：与线性回归假设输出服从高斯分布不同，广义线性模型（GLMs）指定线性模型的因变量服从指数型分布。Spark的GeneralizedLinearRegression接口允许指定GLMs包括线性回归、泊松回归、逻辑回归等来处理多种预测问题。目前 spark.ml仅支持指数型分布家族中的一部分类型，如下：家族因变量类型

2016-12-05 16:19:05 7396 2

翻译朴素贝叶斯算法原理及Spark MLlib调用实例(Scala/Java/Python)

朴素贝叶斯算法介绍：朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，在没有其它可用信息下，我们会选择条件概率最大的类别作为此待分类项应属的类别。朴素贝叶斯分类的正式定义如下：1、设为一个待分类项，而每个a为x的一个特征属性。2、有类别集合。3、计算。4、如

2016-12-03 00:21:59 6645 2

翻译 One-vs-Rest算法介绍及Spark MLlib调用实例(Scala/Java/Python)

One-vs-Rest算法介绍：OneVsRest将一个给定的二分类算法有效地扩展到多分类问题应用中，也叫做“One-vs-All.”算法。OneVsRest是一个Estimator。它采用一个基础的Classifier然后对于k个类别分别创建二分类问题。类别i的二分类分类器用来预测类别为i还是不为i，即将i类和其他类别区分开来。最后，通过依次对k个二分类分类器进行评估，取置信最高的分类器

2016-12-02 16:50:56 7109

翻译多层感知机（MLP）算法原理及Spark MLlib调用实例（Scala/Java/Python）

多层感知机算法简介：多层感知机是基于反向人工神经网络（feedforwardartificial neural network）。多层感知机含有多层节点，每层节点与网络的下一层节点完全连接。输入层的节点代表输入数据，其他层的节点通过将输入数据与层上节点的权重w以及偏差b线性组合且应用一个激活函数，得到该层输出。多层感知机通过方向传播来学习模型，其中我们使用逻辑损失函数以及L

2016-12-02 10:47:00 6937 1

翻译梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）

梯度迭代树算法简介：梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似，梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。梯度提升树依次迭代训练一系列的决策树。在一次迭代中，算法使用现有的集成来对每个训练实例的类别进行预测，然后将预测结

2016-12-01 20:24:39 12500

翻译随机森林（Random Forest）算法原理及Spark MLlib调用实例（Scala/Java/python）

随机森林分类器：算法简介：随机森林是决策树的集成算法。随机森林包含多个决策树来降低过拟合的风险。随机森林同样具有易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。随机森林分别训练一系列的决策树，所以训练过程是并行的。因算法中加入随机过程，所以每个决策树又有少量区别。通过合并每个树的预测结果来减少预测的方差，提高在测试集上的性能表现。

2016-12-01 18:26:12 11523 1

翻译决策树算法原理及Spark MLlib调用实例（Scala/Java/python）

决策树算法介绍：决策树以及其集成算法是机器学习分类和回归问题中非常流行的算法。因其易解释性、可处理类别特征、易扩展到多分类问题、不需特征缩放等性质被广泛使用。树集成算法如随机森林以及boosting算法几乎是解决分类和回归问题中表现最优的算法。决策树是一个贪心算法递归地将特征空间划分为两个部分，在同一个叶子节点的数据最后会拥有同样的标签。每次划分通过贪心的

2016-12-01 17:22:49 6864 5

翻译逻辑回归算法原理及Spark MLlib调用实例（Scala/Java/python）

逻辑回归算法原理：逻辑回归是一个流行的二分类问题预测方法。它是Generalized Linear models 的一个特殊应用以预测结果概率。它是一个线性模型如下列方程所示，其中损失函数为逻辑损失：对于二分类问题，算法产出一个二值逻辑回归模型。给定一个新数据，由x表示，则模型通过下列逻辑方程来预测：其

2016-12-01 11:41:43 17368

liulingyuan6的博客