排序:
默认
按更新时间
按访问量

四种推荐系统原理介绍(基于内容过滤/协同过滤/关联规则/序列模式)

在推荐系统中常用的技术可大致分为四类:基于内容的过滤、协同过滤、基于规则的方法和混合方法。 一、基于内容过滤         基于内容过滤推荐系统思路如下:       (1)通过在抓取每个商品的一系列特征来构建商品档案;       (2)通过用户购买的商品特征来构建基于内容的用户档案;  ...

2017-01-11 11:25:44

阅读数:8161

评论数:1

数据质量管理十步流程

1定义业务需求和方法     明确数据质量管理的重点、时机和目标,来指导整个项目期间的所有工作。 目标:     1.明确信息环境-数据、流程、人员、组织以及与业务情况相关的技术。     2.按顺序排列并最终确定项目重点关注的业务问题。 输入:     1.亟需解决的数据质量业务需求...

2016-12-30 17:21:18

阅读数:3324

评论数:0

机器学习算法应用场景实例六十则

本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。 ———————————————————————————————————————...

2016-12-14 22:19:23

阅读数:25325

评论数:8

关联规则应用场景实例十则

本文整理了7个天池、DataCastle、CCF中可使用关系分析算法处理的问题场景。 1 穿衣搭配推荐         穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配...

2016-12-14 13:13:33

阅读数:9546

评论数:0

聚类算法应用场景实例十则

本文整理了5个天池、DataCastle、CCF中可使用回归算法处理的问题场景。 1 基于用户位置信息的商业选址         随着信息技术的快速发展,移动设备和移动互联网已经普及到千家万户。在用户使用移动网络时,会自然的留下用户的位置信息。随着近年来GIS地理信息技术的不断完善普及,结合用户...

2016-12-14 13:11:14

阅读数:14337

评论数:1

回归算法应用场景实例二十则

本文整理了12个天池、DataCastle、CCF中可使用回归算法处理的问题场景。 1 机场客流量分布预测         为了有效利用机场资源,机场正利用大数据技术,提升生产运营的效率。机场内需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口,航...

2016-12-14 13:06:50

阅读数:4537

评论数:0

分类算法应用场景实例二十则

本文整理了18个天池、DataCastle、CCF中可使用分类算法处理的问题场景。 1 O2O优惠券使用预测          以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算...

2016-12-14 12:12:11

阅读数:9247

评论数:1

Spark机器学习库(MLlib)官方指南手册中文版

Spark机器学习库(MLlib)指南        MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具:        1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。        2.特征工程:特征提取、特征转换、特征选择以...

2016-12-12 14:23:35

阅读数:15998

评论数:0

Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)

本文中,我们介绍机器学习管道的概念。机器学习管道提供一系列基于数据框的高级的接口来帮助用户建立和调试实际的机器学习管道。 管道里的主要概念        MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流,管道的概念源于scikit-learn项目。        1.数据框:机器学习...

2016-12-11 23:04:54

阅读数:7037

评论数:0

三种线性问题的优化

三种线性方法优化方法 有限记忆BFGS(L-BFGS)        L-BFGS是拟牛顿方法家族里的一个优化算法,解决 形式的优化问题。L-BFGS方法以二次方程来逼近目标函数来构造黑塞矩阵,不考虑目标函数的二阶偏导数。黑塞矩阵由先前的迭代评估逼近,所以不像直接使用牛顿方法一样可垂直扩展(训...

2016-12-10 17:07:40

阅读数:2753

评论数:0

两种模型选择和超参数调整方法及Spark MLlib使用示例(Scala/Java/Python)

机器学习调试:模型选择和超参数调整 模型选择(又名超参数调整)        在机器学习中非常重要的任务就是模型选择,或者使用数据来找到具体问题的最佳的模型和参数,这个过程也叫做调试。调试可以在独立的如逻辑回归等估计器中完成,也可以在包含多样算法、特征工程和其他步骤的管线中完成。用户应该一次性调试...

2016-12-09 14:50:13

阅读数:4066

评论数:0

交叉验证原理及Spark MLlib使用实例(Scala/Java/Python)

交叉验证 方法思想:        CrossValidator将数据集划分为若干子集分别地进行训练和测试。如当k=3时,CrossValidator产生3个训练数据与测试数据对,每个数据对使用2/3的数据来训练,1/3的数据来测试。对于一组特定的参数表,CrossValidator计算基于三...

2016-12-09 14:16:24

阅读数:3344

评论数:1

协同过滤(ALS)算法原理及Spark MLlib调用实例(Scala/Java/Python)

协同过滤 算法介绍:     协同过滤常被用于推荐系统。这类技术目标在于填充“用户-商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤,其中用户和商品以少量的潜在因子来描述,用以预测缺失项。Spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因子。 *注意基于Dat...

2016-12-06 17:03:08

阅读数:7923

评论数:4

混合高斯模型(GMM)Spark MLlib调用实例(Scala/Java/Python)

高斯混合模型 算法原理:     混合高斯模型描述数据点以一定的概率服从k种高斯子分布的一种混合分布。Spark.ml使用EM算法给出一组样本的极大似然模型。 参数: featuresCol: 类型:字符串型。 含义:特征列名。 k: 类型:整数型。 含义:混合模型中独立的高斯数...

2016-12-06 15:23:38

阅读数:2285

评论数:0

二分K均值算法原理及Spark MLlib调用实例(Scala/Java/Python)

二分K均值算法 算法介绍: 二分K均值算法是一种层次聚类算法,使用自顶向下的逼近:所有的观察值开始是一个簇,递归地向下一个层级分裂。分裂依据为选择能最大程度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。以此进行下去,直到簇的数目等于用户给定的数目k为止。二分K均值常常比传统K均值算法有...

2016-12-06 14:43:54

阅读数:1369

评论数:0

文档主题生成模型(LDA)算法原理及Spark MLlib调用实例(Scala/Java/python)

文档主题生成模型(LDA) 算法介绍: LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选...

2016-12-06 11:48:38

阅读数:2553

评论数:0

K均值(K-means)算法原理及Spark MLlib调用实例(Scala/Java/python)

K均值(K-means)算法 算法介绍: K-means是一个常用的聚类算法来将数据点按预定的簇数进行聚集。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 假设要把样本集分为c个类别,算法...

2016-12-06 11:44:32

阅读数:4955

评论数:1

保序回归算法原理及Spark MLlib调用实例(Scala/Java/python)

保序回归 算法介绍:        保序回归是回归算法的一种。保序回归给定一个有限的实数集合 代表观察到的响应,以及 代表未知的响应值,训练一个模型来最小化下列方程:          其中 , 为权重是正值。其结果方程称为保序回归,而且其解是唯一的。它可以被视为有顺序约束下的最小二乘法问题。实际...

2016-12-05 23:02:41

阅读数:1542

评论数:0

生存回归(加速失效时间模型)算法原理及Spark MLlib调用实例(Scala/Java/python)

生存回归(加速失效时间模型) 算法介绍:         在spark.ml中,我们实施加速失效时间模型(Acceleratedfailure time),对于截尾数据它是一个参数化生存回归的模型。它描述了一个有对数生存时间的模型,所以它也常被称为生存分析的对数线性模型。与比例危险模型不同,因...

2016-12-05 21:19:25

阅读数:3463

评论数:1

梯度迭代树回归(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python)

梯度迭代树回归 算法简介:         梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。        梯度...

2016-12-05 17:47:21

阅读数:2600

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭