做推荐的Bella酱-CSDN博客

原创评书：《美团机器学习实践》

新入手一本《美团机器学习实践》，读完觉得很有意思，把一部分内容分享给大家。这本书分为六部分，第一部分是通用流程，讲的是机器学习在实践中应用的通用流程，有些经验之谈很有意思；第二部分讲的是数据挖掘，主要包括用户画像、POI实体链接和评论挖掘；第三部分是搜索和推荐，顾名思义，讲的是美团中的应用的搜索和推荐架构；第四部分计算广告；第五部分讲的是深度学习；第六部分讲的是算法工程。第一部分和第五部分属于...

2018-12-10 19:50:57 616 2

翻译 Candidate sampling：NCE loss和negative sample

在工作中用到了类似于negative sample的方法，才发现我其实并不了解candidate sampling。于是看了一些相关资料，在此简单总结一些相关内容。主要内容来自tensorflow的candidate_sampling和卡耐基梅隆大学一个学生写的一份notesNotes on Noise Contrastive Estimation and Negative Sampling，还...

2018-12-07 15:22:24 2998

原创淘宝双十一的深度召回框架

阿里技术团队发了一篇新文章，是讲淘宝双十一背后的支持系统的：一天造出10亿个淘宝首页，阿里工程师如何实现？。我对里面提到的深度召回框架还挺感兴趣的，试图从中解析一下看看。从Graph Embedding开始阿里的这个深度召回系统来源于《DeepWalk: Online Learning of Social Representations》。我们今天先来看看这篇文章讲了什么。DeepWalk本...

2018-11-19 19:39:46 509 1

原创 YouTube推荐系统（下）：Deep Neural Networks for YouTube Recommendations

咳，还是要说说这篇文章，虽然讲它的人已经很多了。毕竟作为深度学习模型大规模应用于工业界推荐系统的标志，这篇文章是绕不过去的。原文来自Deep Neural Networks for YouTube Recommendations，是YouTube2016年发表于Recosys的文章。这篇文章的结构依然很经典：由deep candidate generation model（召回阶段）和deep ...

2018-11-02 15:54:44 934

原创 YouTube推荐系统（上）：The YouTube Video Recommendation System

这是最早的一篇YouTube的推荐系统的文章，原文来自The YouTube Video Recommendation System。发表于2010年。YouTube拥有世界上最大的视频推荐系统之一，在2010年，整个系统还比较简略，不过也值得了解一下。Goal用户使用YouTube时一般有三种目的：1. 观看特定的video；2.观看特定topic的video；3.浏览并寻找感兴趣的视频。...

2018-10-31 19:30:05 2514

原创阿里的CTR预测（二）：Deep Interest Evolution Network

这篇文章发布于2018年9月，是之前的DIN的改进版。我们在阿里的CTR预测（一）：Deep Interest Network中提到过，他们尝试使用LSTM来学习序列化数据的特征，但是对DIN的结果没有改善。DIEN在这一点上做了改善。Deep Interest Evolution Network（DIEN）我们略去背景介绍，尤其是Base Model的部分，如果大家想看的话，可以去前一篇文章...

2018-10-17 19:00:36 3031

原创计算A/B Test需要的样本量

A/B Test是我们做算法模型时离不开的助手，只有通过A/B Test的模型才能进入产品。但要使A/B Test达到应有的效果，我们必须严格地满足它的一些要求。这里有一篇关于A/B test的文章：ABtest和假设检验、流量分配写得很好，我只在这里补充一些细节。Z检验很多情况下，我们要用Z检验来判断A/B Test的有效性。Z检验，也称“U检验”，是为了检验在零假设情况下测试数据能否可以接...

2018-10-16 14:45:29 14964

原创阿里的CTR预测（一）：Deep Interest Network

今天我想介绍阿里的同一推荐团队一脉相承的两篇文章，Deep Interest Network for Click-Through Rate Prediction和，Deep Interest Evolution Network for Click-Through Rate Prediction。这是第一部分，主要介绍前一篇文章。Deep Interest Network（DIN）Deep In...

2018-10-15 20:08:52 4481

原创 Wide & deep Model：从Google到华为

在之前的一篇博客基于深度学习的推荐系统（二）MLP based中，我简单地提到了wide&deep model。在这里，我将这一模型单独拿出来加以讲述，因为这个模型是很多工业界推荐系统的根基。从Google在2016年发表这篇文章开始，越来越多的公司开始使用wide&deep model和它的变种。其中，华为提出的DeepFM是一个较为典型的变种，之前也提到过一些，我也会在这篇文章...

2018-10-10 12:59:20 4023

翻译基于深度学习的推荐系统（二）MLP based

在第二部分，我们总结MLP基础上的推荐系统，我在这里只截取了原文的一部分内容。z这篇博客中所使用的注解字符和参考文献目录可以在基于深度学习的推荐系统（一）Overview中找到。我们把这些工作分为如下几部分：传统推荐算法的神经网络扩展许多现有的推荐模型基本上是线性方法。 MLP可用于向现有RS方法添加非线性变换。Neural Collaborative Filtering在大多数情况下，推...

2018-10-09 15:29:22 4097

翻译基于深度学习的推荐系统（一）Overview

这是对近年来基于深度学习的推荐系统的内容的一份综述，具体来说，大部分内容来自Deep Learning based Recommender System: A Survey and New Perspectives，我翻译和总结了其中的一些内容。同时，我有时也会阅读该survey提到的工作的原文，并对某些更具体的内容做一些补充。正文开始深度学习近年来在各个领域都被广泛应用，推荐系统也不例外，...

2018-10-09 14:00:48 2065

转载【转载】爱奇艺个性化推荐排序实践

原文来自爱奇艺个性化推荐排序实践背景在当前这个移动互联网时代，除了专业内容的丰富，UGC内容更是爆发式发展，每个用户既是内容的消费者，也成为了内容的创造者。这些海量的内容在满足了我们需求的同时，也使我们寻找所需内容更加困难，在这种情况下个性化推荐应运而生。个性化推荐是在大数据分析和人工智能技术的基础上，通过研究用户的兴趣偏好，进行个性化计算，从而给用户提供高质量的个性化内容，解决信息过载的问...

2018-09-30 11:37:04 502

翻译 Netflix 推荐系统(Part Eight)-Spark+AI 2018

原文来自Netflix at Spark+AI Summit 2018。并不追求完全和完整的翻译，仅翻译个人认为的重点部分。如发现任何侵权行为，请联系我。A glimpse at Spark usage for Netflix RecommendationsApache Spark一直是分布式计算中非常流行的大数据平台。 Netflix已广泛使用Spark进行各种批处理和流处理工作。大量Sp...

2018-09-30 11:20:32 557

翻译 Netflix推荐系统(Part Seven)-改善实验系统

原文来自Innovating Faster on Personalization Algorithms at Netflix Using Interleaving。如发现任何侵权行为，请联系我。Netflix体验由一系列排名算法提供支持，每种算法都针对不同的目的进行了优化。例如，主页上的Top Picks行根据视频的个性化排名提出建议，而Trending Now行也包含最近的流行趋势。这些算...

2018-09-30 10:51:47 793

翻译 Netflix 推荐系统(Part Six)-To Be Continued

To Be Continued也就是继续播放模式，在国外比较常见。这篇文章的原文来自To Be Continued。这不是完全和完整的翻译稿，而是我个人认为的重要部分。如果发现有任何侵权行为。请联系我。Background我们改进Netflix推荐系统的目标是创建个性化体验，让用户更容易找到优质内容。我们的推荐系统的最终目标是了解会员的exact perfect节目，并在他们打开Netflix...

2018-09-29 17:38:19 369

翻译 Netflix推荐系统(Part Five)-国际化和本地化推荐

原文来自Recommending for the World。这并不是完全和完整的翻译稿，而是一种总结和笔记。如果发现任何侵权行为，请联系我。截止到2016年1月6日，Netflix同时在全球130个新国家上线，超过190个国家。Netflix需要准备好快速扩展，同时确保每个算法都可以无缝地工作，这为他们的推荐和搜索团队带来了新的挑战。在这篇文章中，他们重点介绍了他们在使算法在全球范围内运...

2018-09-29 16:10:33 424

翻译 Netflix 推荐系统(Part Four)-搜索体验

原文来自A New Search Experience for the Website和A New Visual Search Experience for Mobile and Tablet。这并不是完全和完整的翻译稿，而是主要内容的总结和记录。如有任何侵权行为，请联系我。A New Search Experience for the WebsiteNetflix重视用户的各种体验，搜索体验...

2018-09-29 15:18:03 1438

翻译 Netflix 推荐系统(part three)-个性主页生成

本文主要总结和翻译自Learning a Personalized Homepage。但这并不是完全和完整的翻译稿。正如我们在之前的博客文章中所描述的那样，在Netflix，我们广泛使用个性化，并努力抓住向超过5700万用户中的每一个呈现正确内容的机会。用户与我们的推荐互动的主要方式是通过主页，当他们在任何支持的设备上登录Netflix时，他们会看到主页。主页的主要功能是帮助每个成员轻松找到...

2018-09-29 12:02:13 994

翻译 Netflix推荐系统 (Part two)-系统架构

Netflix在2013年公布了自己推荐系统的架构，本文主要总结和翻译自System Architectures for Personalization and Recommendation，但这并不是一篇完整的翻译文章。Overview首先，我们在下图中提供推荐系统的整体系统图。该体系结构的主要组件包含一个或多个机器学习算法。计算可以被online，nearline或者offline完...

2018-09-28 11:21:21 1790

原创 Netflix 推荐系统 (Part One)-排序算法

这一系列的文章是关于netflix techblog的推荐系统相关文章的总结。大部分内容来自netflix-techblog:recommendations按照时间顺序，最早的关于推荐系统的文章发表于2012年.Netflix Recommendations: Beyond the 5 stars (Part 1)Netflix Recommendations: Beyond the 5 s...

2018-09-27 18:25:29 1759

原创多臂老虎机问题

强化学习的基础概念多臂老虎机是一个常见的强化学习问题，所以我们首先给出强化学习的一些基础概念：强化学习不仅需要学习做什么，也需要学习如何根据与环境的交互采取相应的行动。强化学习的最终结果，就是要实现系统回报信号的最大化。学习者事先并不知道要去执行什么行为，需要自己去发现哪种行动能产生最大的回报。在强化学习中，有两个可以进行交互的对象：智能体和环境。智能体（agent）可以感知外界环境的状...

2018-09-26 17:42:19 14121 2

原创隐语义模型和Matrix Factorization Model

隐语义模型： latent factor model和latent factor model相关的名词有LSI， pLSA，LDA和topic model。隐语义模型的核心思想在于，通过隐含特征联系用户和物品。即先对用户喜欢的物品进行分类，得到用户的兴趣，再通过兴趣分类挑选物品。这个模型主要关注的问题是：（1）如何给物品进行分类（2）如何确定用户对哪些分类感兴趣，以及感兴趣的程度？...

2018-09-18 16:22:11 1615

原创 Collaborative Filtering

一个经典的推荐系统一般分为召回阶段和排序阶段，召回阶段是指从大量的（可能高达数十亿）的item中选定候选集（一般为几千到几百的范围）的过程，而排序阶段是指对候选集中的item按照用户偏好进行排序。本质上来说，所有推荐算法的目标都是识别用户对某一item的偏好，也就是说，对于如下的一个user-item-preference矩阵，我们需要预测其中任意一点的值： item1...

2018-09-18 15:47:14 2260

原创 Catboost学习笔记

CatBoost教程来自 https://www.youtube.com/watch?v=8o0e-r0B5xQ一般来说，GB方法适用于异质化数据。即，若你的数据集全由图片数据构成或者全由视频数据构成之类的，我们称其为同质化数据，这时使用神经网络往往会有更好的表现。但对于异质化数据，比如说数据集中有user gender，user age，也有content data等等的情况，GB方法的...

2018-09-18 15:28:17 15656

原创 Lightgbm学习笔记

lightgbm是微软提出的框架，支持各种不同的语言，其GitHub为https://github.com/Microsoft/LightGBM它的相关技术文章LightGBM: A Highly Efficient Gradient Boosting Decision Tree发表于NIPS2017. 文章认为，GBDT运行过程中的主要代价是在学习新的决策树的过程中，选择best split ...

2018-09-18 15:23:26 252

原创 Xgboost和lightgbm的区别

这是数据应用学院8/4 Live：数据科学家常用工具XGBoost与LightGBM大比拼，性能与结构的笔记。https://www.youtube.com/watch?v=dOwKbwQ97tI Xgboost, lightgbm, catboost实际上是对GBDT方法的不同实现，它们针对同一目标、做了不同的优化处理。XGboost作为最早出现的库，优化做得稍微少一些，但总...

2018-09-18 14:03:41 9777 1

原创 XGBoost学习笔记

XGBoost是陈天奇等人提出的、非常流行的GBDT的变种。其代码库为https://github.com/dmlc/xgboostXGBoost的教学视频https://www.youtube.com/watch?v=ufHo8vbk6g4slides:https://www.slideshare.net/ShangxuanZhang/kaggle-winning-solution-xg...

2018-09-18 13:59:01 447

原创从决策树到GBDT

这一系列的文章都是各种书、论文、专栏、视频的笔记，本篇的内容主要是对周志华《机器学习》的学习笔记。Decision Tree了解树算法从决策树开始。决策树是基于树结构的决策算法，包括一个根结点，若干个内部节点和叶子结点。叶子结点对应于决策结果，其他每个节点对应于一个属性测试。决策树的生成是一个递归过程，在决策树基本算法中，有三种情形会导致递归返回：（1）当前节点包含的样本全属于...

2018-09-18 13:50:54 402

炼丹笔记本