广告/推荐
文章平均质量分 84
一寒惊鸿
阿里算法工程师,聚焦于人工智能这一璀璨的星辰,致力于在数据的海洋中寻找智慧的珍珠。
展开
-
【实践】基于spark的CF实现及优化
最近项目中用到ItemBased Collaborative Filtering,实践过spark mllib中的ALS,但是因为其中涉及到降维操作,大数据量的计算实在不能恭维。所以自己实践实现基于spark的分布式cf,已经做了部分优化。目测运行效率还不错。以下代码package modelimport org.apache.spark.broadcast.Broadcastimp原创 2017-07-26 10:27:30 · 14548 阅读 · 2 评论 -
【实践】CTR预估中的贝叶斯平滑方法(二)
1. 前言这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,以及具体的代码实现。首先,我们回顾一下前文中介绍的似然函数,也就是我们需要进行最大化的目标函数:下面我们就基于这个目标函数介绍怎样估计参数。 2. 参数估计的几种方法1. 矩估计矩估计在这里有点乱入的意思:),因为它其实不是用来最大化似然函数的,而是直接进行参数的近似估计。矩估计的方法要追溯到19世纪的原创 2017-09-13 14:34:20 · 12393 阅读 · 0 评论 -
【总结】CTR预估中GBDT与LR融合方案
1、背景CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种线性原创 2017-06-26 14:13:02 · 22280 阅读 · 0 评论 -
【算法】在线学习算法FTRL详解
原文链接:http://www.cnblogs.com/EE-NovRain/p/3810737.html 现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regula原创 2017-06-15 11:09:38 · 47031 阅读 · 1 评论 -
【总结】深度学习打造精准推荐系统,细说国美互联网AI发展的进击之路
导语这是一个AI+的时代。作为线上+线下的电商零售平台,国美互联网如何将人工智能技术嵌入到实际业务中?机器学习和深度学习技术为国美带来了哪些改变?在这火热的时局中,国美未来在前沿技术方面又将如何布局?且听下文一一分解。正文今年机器学习已然成为炙手可热的技术话题。深度学习与人工智能技术正在改变人们的生活,同时也给企业管理大量数据、为用户提供更精准的服务提供了一些新的思路和尝试的方向。转载 2017-08-31 14:51:30 · 1633 阅读 · 0 评论 -
【算法】阿里双十一推荐技术
阿里妹导读:双十一手淘首页个性化场景是推荐生态链路中最大的场景之一,在手淘APP承载了整体页面的流量第一入口,对用户流量的整体承接、分发、调控,以及用户兴趣的深度探索与发现上起着至关重要的作用。双11手淘首页的几个重要推荐场景截图如下: 如上图所示,左一场景为AIO综合会场,包括AIO日常场景(淘抢购、有好货、清单等)、双11人群会场及行业会场;中间为AIOplus场景卡片综合会场,包括5张会场卡...原创 2017-12-20 13:08:32 · 9767 阅读 · 2 评论 -
【实践】Spark 协同过滤ALS之Item2Item相似度计算优化
最近项目在做推荐系统中match 策略中的CF召回优化,自之前第一版自己实现的基于item的协同过滤算法http://blog.csdn.net/dengxing1234/article/details/76122465,考虑到用户隐型评分的稀疏性问题,所以尝试用Spark ml包(非mllib)中的ALS算法的中间产物item的隐性向量,进行进一步item到item的余弦相似度计算。由于item...原创 2018-01-11 14:14:28 · 14963 阅读 · 3 评论 -
【实践】spark 实现simrank计算图结构的相似
SimRank原理图1.二部图所谓二部图(bipartite graphs),是指图中的节点可以分这两个子集,任意一条边关联的两个节点分别来自于这两个子集。用I(v)和O(v)分别表示节点v的in-neighbors和out-neighbors。看上面的二部图,我们把A、B当成两个人,把a、b、c当成三件商品,有向边代表人购买的商品。simrank的基本思想是:如果两个实体相似,那么跟它们相关的实...原创 2017-12-29 17:07:25 · 14189 阅读 · 4 评论 -
【实践】信息流推荐算法实践 & 深入
一. 背景负责信息流推荐系统后台算法的工作也有一段时间,从零开始构建推荐系统的过程中,在总结了业界一些成功的经验的同时,也摸索了一些有效的实践方法。愿在此沉淀,通过交流扩展眼界。推荐系统重在算法,这也是各大公司算法团队不断追新与实践的过程。无奈个人能力有限,团队人力有限,只能一步一步从基础做起。本文将主要介绍信息流视频推荐算法的应用和探索。二. 算法架构 召回算法:包...原创 2018-03-30 23:07:56 · 16356 阅读 · 4 评论 -
【算法】深度学习在CTR预估/推荐系统中的应用探索
前言深度学习凭借其强大的表达能力和灵活的网络结构在 NLP、图像、语音等众多领域取得了重大突破。在广告领域,预测用户点击率(Click Through Rate,简称 CTR)领域近年也有大量关于深度学习方面的研究。本文就近几年 CTR 预估领域中学术界的经典方法进行探究,并比较各自之间模型设计的初衷和各自优缺点。通过十种不同 CTR 深度模型的比较,不同的模型本质上都可以由基础的底层组件组成。 ...原创 2018-04-12 18:50:49 · 3860 阅读 · 2 评论 -
【总结】深度学习在推荐领域上之Lookalike 应用
当2012 年Facebook 在广告领域开始应用定制化受众(Facebook CustomAudiences)功能后,受众发现这个概念真正得到大规模应用。什么是受众发现?如果你的企业已经积累了一定的客户,无论这些客户是否关注你或者是否和你在Facebook 上有互动,你都能通过Facebook 的广告系统触达到。受众发现实现了什么功能?在没有这个系统之前,广告投放一般情况都是用兴趣标签去区分用户...原创 2018-04-29 17:02:14 · 6027 阅读 · 1 评论 -
【算法】CTR预估中的贝叶斯平滑方法(一)
1. 背景介绍广告形式:互联网广告可以分为以下三种:1)展示广告(display ad)2)搜索广告(sponsored search ad)3)上下文广告(contextual ad) 竞价模式:对于在线广告,主要有以下几种竞价模式:1)pay-per-impression(按展示付费):广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型。缺点在于没有考原创 2017-09-13 14:30:53 · 9508 阅读 · 0 评论 -
【总结】淘宝搜索/推荐系统背后深度强化学习与自适应在线学习的实践之路
1搜索算法研究与实践1.1背景淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统的Learning to Rank(LTR)方法主要是在商品维度进行学习,根据商品的点击、成交数据构造学习样本,转载 2017-08-01 15:10:07 · 3752 阅读 · 0 评论 -
【总结】推荐系统学习-LibMF
介绍 LibMF的作者是大名鼎鼎的台湾国立大学,他们在机器学习领域享有盛名,近年连续多届KDD Cup竞赛上均获得优异成绩,并曾连续多年获得冠军。业界常用的LibSVM, Liblinear等都是他们开发的,开源代码的效率和质量都非常高。 LibMF是在潜在空间使用两个矩阵,接近一个不完全矩阵。(原句是:LIBMF is an open source tool for appr转载 2017-06-07 10:55:25 · 24861 阅读 · 0 评论 -
【实践】spark streaming中的广播变量应用
1. 广播变量我们知道spark 的广播变量允许缓存一个只读的变量在每台机器上面,而不是每个任务保存一份拷贝。常见于spark在一些全局统计的场景中应用。通过广播变量,能够以一种更有效率的方式将一个大数据量输入集合的副本分配给每个节点。Spark也尝试着利用有效的广播算法去分配广播变量,以减少通信的成本。 一个广播变量可以通过调用SparkContext.broadcast(v)方法从一个初始变量原创 2017-07-04 15:07:53 · 25002 阅读 · 6 评论 -
【总结】深度学习在推荐领域的应用
当2012年Facebook在广告领域开始应用定制化受众(Facebook Custom Audiences)功能后,“受众发现”这个概念真正得到大规模应用,什么叫“受众发现”?如果你的企业已经积累了一定的客户,无论这些客户是否关注你或者是否跟你在Facebook上有互动,都能通过Facebook的广告系统触达到。“受众发现”实现了什么功能?在没有这个系统之前,广告投放一般情况都是用标签去区分用户转载 2017-07-26 14:59:28 · 5275 阅读 · 0 评论 -
【实践】CTR中xgboost/gbdt +lr
自学习CTR预估中GBDT与LR融合方案 ,有意用简单暴利的python实现一版GBDT/XGboost做特征选择,融合LR进行CTR的代码demo。1. GBDT + LR python3.5.3 + scikit-learn0.18.1from scipy.sparse.construct import hstackfrom sklearn.model_select...原创 2017-06-26 14:37:26 · 33153 阅读 · 22 评论 -
【总结】广告点击率预估中的特征选择
互联网广告综述之点击率特征工程一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。原创 2017-06-20 15:46:16 · 24416 阅读 · 0 评论 -
【总结】基于机器学习方法的POI品类推荐算法
来源:http://tech.meituan.com/category-recommend-base-ml.html前言在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的转载 2017-03-16 19:10:44 · 49681 阅读 · 0 评论 -
【总结】搜狐基于Spark的新闻和广告推荐
原文:http://www.csdn.net/article/1970-01-01/2825353摘要:对一个媒体网站来讲,一个比较重要的任务就是获取用户对于不同类型文章的兴趣分布。用户的兴趣分布会被作为用户属性标签,和其他类型的标签(例如人口属性等)一起用作推荐的模型特征。李滔,中国科技大学博士毕业,现供职于搜狐大数据中心用户推荐部,从事推荐和广告算法研发工作。主要关注技术方向包括广告技转载 2017-03-10 17:19:31 · 26132 阅读 · 0 评论 -
【总结】美团之推荐系统
来源:http://tech.meituan.com/mt-recommend-practice.html前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价转载 2017-03-16 19:06:44 · 38151 阅读 · 1 评论 -
【总结】推荐算法之工具包
1、SVDFeature 主页:http://svdfeature.apexlab.org/wiki/Main_Page 开发语言:C++ 2、LibMF 主页:http://www.csie.ntu.edu.tw/~cjlin/libmf/ 开发语言:C++ 3、LibFM 主页:http://www.libfm.org/ 开发语言:C++原创 2017-06-07 10:41:11 · 25410 阅读 · 0 评论 -
【总结】Bandit算法与推荐系统
原文:http://geek.csdn.net/news/detail/195714推荐系统里面有两个经典问题:EE和冷启动。前者涉及到平衡准确和多样,后者涉及到产品算法运营等一系列。Bandit算法是一种简单的在线学习算法,常常用于尝试解决这两个问题,本文为你介绍基础的Bandit算法及一系列升级版,以及对推荐系统这两个经典问题的思考。什么是Bandit算法为选择而生转载 2017-06-13 17:21:04 · 47680 阅读 · 0 评论 -
【算法】阿里精准推广的核心算法MLR
原文:http://www.sohu.com/a/146522397_463994阿里妈妈,是一个想让天下没有难做的营销的大数据平台,它拥有阿里巴巴集团的核心商业数据。在这里,每天有超过50亿的推广流量完成超过3亿件商品的推广展现,覆盖高达98%的网民,实现数字媒体(PC端+无线端+互联网电视端)的一站式触达。在这些鲜亮的数据背后,是什么样的核心算法在起作用?它如何保证转载 2017-06-13 11:15:46 · 31200 阅读 · 1 评论 -
【总结】推荐系统学习-libFM
介绍 分解机(FM)是一个通过特征工程模拟大多数分解模型的通用方法。libFM是一个实现以随机梯度下降stochastic gradient descent (SGD)和可选择最小二乘alternating least squares (ALS) optimization以及使用蒙特卡洛的贝叶斯推理Bayesian inference using Markov Chain Monte C转载 2017-06-07 10:57:18 · 31596 阅读 · 1 评论 -
【总结】推荐系统学习-SVDFeature
介绍 SVDFeature是由Apex Data & Knowledge Management Lab在KDD CUP11竞赛中开发出来的工具包。它的目的是有效地解决基于特征的矩阵分解。新的模型可以只通过定义新的特征来实现。这种基于特征的设置允许我们把很多信息包含在模型中,使得模型更加与时俱进。使用此工具包,可以很容易的把其他信息整合进模型,比如时间动态,领域关系和分层信息。除了评分预测,还转载 2017-06-07 10:52:49 · 25810 阅读 · 1 评论 -
【实践】广告ctr模型之Deep cross network (dcn)
广告ctr模型可用的深度模型其本质架构都一样(可见https://blog.csdn.net/dengxing1234/article/details/79916532),这也是限制了模型的发展路线。Deep cross network在广告ctr模型也是应用很常见,它聚焦于解决特征工程的问题,对比paper中提到:【DNN可以自动地学习特征地交互作用,然而,它们隐式地的生成所有的特征交互,这对于...原创 2018-12-07 11:44:28 · 2260 阅读 · 0 评论