机器学习
guohecang
数据为王时代,让大数据释放大价值
展开
-
参数估计:最大似然、贝叶斯与最大后验
参数估计的方法有多种,这里我们分析三种基于概率的方法,分别是最大似然估计(Maximum Likelihood)、贝叶斯估计(Bayes)和最大后验估计(Maximum a posteriori)。我们假设我们观察的变量是x,观察的变量取值(样本)为,要估计的参数是,x的分布函数是(我们用条件概率来显式地说明这个分布是依赖于取值的)。实际中,x和都可以是几个变量的向量,这里我们不妨认为它们都是标量(theta若是标量求导,若是向量求偏导)。这里的p(x|θ)可以是高斯分布或其他分布。转载 2016-08-28 09:41:55 · 1035 阅读 · 0 评论 -
深入FFM原理与实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。转载 2016-09-17 20:24:21 · 744 阅读 · 0 评论 -
基于机器学习方法的POI品类推荐算法
在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据。例如,门店名称为“好再来牛肉拉面馆”的POI将自动标注“小吃”品类。转载 2016-09-22 12:31:15 · 4719 阅读 · 0 评论 -
Online Learning算法理论与实践
Online Learning是工业界比较常用的机器学习算法,在很多场景下都能有很好的效果。本文主要介绍Online Learning的基本原理和两种常用的Online Learning算法:FTRL(Follow The Regularized Leader)[1]和BPR(Bayesian Probit Regression)[2],以及Online Learning在美团移动端推荐重排序的应用。转载 2016-09-17 07:07:21 · 8587 阅读 · 1 评论 -
数据清洗的一些梳理
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。转载 2016-09-11 11:20:45 · 4294 阅读 · 0 评论 -
机器学习规则:ML工程的最佳实践[译]
Martin Zinkevich本文档旨在帮助具有机器学习基础知识的人员从Google的机器学习中获得最佳实践的好处。 它提供了机器学习的风格,类似于Google C ++ Style Guide和其他实用程序设计的热门指南。 如果你在机器学习中学过一门课,或者在一个机器学习的模型上构建或工作,那么你有阅读本文档的必要背景。原创 2017-03-13 13:51:21 · 2879 阅读 · 1 评论 -
机器学习路线图(附资料)
也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能的核心算法就是机器学习领域的内容。转载 2017-03-13 14:20:22 · 6099 阅读 · 0 评论 -
GBDT(MART) 迭代决策树入门教程 | 简介
在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(g转载 2017-03-13 21:36:34 · 1015 阅读 · 0 评论 -
美团O2O排序解决方案——线下篇
针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。转载 2016-09-17 22:58:21 · 426 阅读 · 0 评论 -
美团O2O排序解决方案——线上篇
美团的愿景是连接消费者和商家,而搜索在其中起着非常重要的作用。随着业务的发展,美团的商家和团购数正在飞速增长。这一背景下,搜索排序的重要性显得更加突出:排序的优化能帮助用户更便捷地找到满足其需求的商家和团购,改进用户体验,提升转化效果。转载 2016-09-17 21:17:54 · 1471 阅读 · 0 评论 -
Logistic Regression 模型简介
逻辑回归(Logistic Regression)是机器学习中的一种分类模型,由于算法的简单和高效,在实际中应用非常广泛。本文作为美团机器学习InAction系列中的一篇,主要关注逻辑回归算法的数学模型和参数求解方法,最后也会简单讨论下逻辑回归和贝叶斯分类的关系,以及在多分类问题上的推广。转载 2016-09-17 06:49:27 · 1077 阅读 · 0 评论 -
先验概率、最大似然估计、贝叶斯估计、最大后验概率
参数估计的方法有多种,这里我们分析三种基于概率的方法,分别是最大似然估计(Maximum Likelihood)、贝叶斯估计(Bayes)和最大后验估计(Maximum a posteriori)。我们假设我们观察的变量是x,观察的变量取值(样本)为,要估计的参数是,x的分布函数是(我们用条件概率来显式地说明这个分布是依赖于取值的)。实际中,x和都可以是几个变量的向量,这里我们不妨认为它们都是标量(theta若是标量求导,若是向量求偏导)。这里的p(x|θ)可以是高斯分布或其他分布。原创 2016-08-25 11:33:05 · 48915 阅读 · 3 评论 -
各大公司广泛使用的在线学习算法FTRL详解
现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regularized-Leader)算法,在处理诸如逻辑回归之类的带非光滑正则化项(例如1范数,做模型复杂度控制和稀疏化)的凸优化问题上性能非常出色,据闻国内各大互联网公司都第一时间应用到了实际产品中,我们的系统也使用了该算法。转载 2016-08-31 21:17:57 · 1158 阅读 · 0 评论 -
在线机器学习FTRL(Follow-the-regularized-Leader)算法介绍
批处理bacth的离线机器学习方法在每次迭代计算的过程中,需要把全部的训练数据加载到内存中计算(例如计算全局梯度), 虽然有分布式大规模的机器学习平台,在某种程度上批处理方法对训练样本的数量还是有限制的,onlinelearning不需要cache所有数据,以流式的处理方式可以处理任意数量的样本。研究onlinelearning有两个角度,在线凸优化和在线Bayesian。转载 2016-08-30 15:38:24 · 5920 阅读 · 0 评论 -
实例详解机器学习如何解决问题
随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战(InAction)系列的介绍(带“机器学习InAction系列”标签的文章),介绍机器学习在解决工业界问题的实战中所需的基本技术、经验和技巧。转载 2016-09-16 10:45:29 · 669 阅读 · 0 评论 -
用户特征工程详细解读
在网上找到了美团一位叫付晴川同学些的ppt,里面有一幅描述用户特征工程的图,感觉总结得还是比较到位的。现在把图片贴出来: 这张图将用户特征工程里的大面基本都囊括了。因为ppt本身做得比较简单,现在我们试图针对图里的每一项,结合具体的业务场景,做个比较详细的分析。1.原始数据提取原作者画图的时候将第一项命名为特征提取,我觉得作者想表达的本意应该是从哪获得相关数据,所以叫原始数据提取可转载 2016-09-11 11:14:18 · 3325 阅读 · 0 评论 -
七种常用特征工程技术
本质上来说,呈现给算法的数据应该能拥有基本数据的相关结构或属性。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。事实上,好的特征甚至能够帮你实现使用简单的模型达到很好的效果。转载 2016-09-11 10:57:01 · 5433 阅读 · 1 评论 -
机器学习中的数据清洗与特征处理综述
随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。转载 2016-09-16 17:11:02 · 1876 阅读 · 0 评论 -
分类器模型评价指标
需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有accuracy,precision,recall,F-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以原创 2016-08-22 14:27:26 · 80735 阅读 · 1 评论 -
CTR预估中GBDT与LR融合方案
1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间[2],映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化转载 2017-03-14 10:49:39 · 1281 阅读 · 0 评论