机器学习
dustinsea
百度关键词搜索推荐系统Maker
展开
-
经典聚类算法及在互联网的应用
简单回顾了以下几类聚类算法, 包括partitioning , hierachical聚类和EM.以及这些聚类算法在我过去几年在百度工作期间的应用过程,希望对大家有所帮助原创 2013-10-14 16:55:25 · 11103 阅读 · 0 评论 -
一个完整推荐系统的设计实现-以百度关键词搜索推荐为例
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题。 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别。 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计。结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。下文也对之前的一些博文进行梳理,构成一个完整工业界推荐系统所具有的方方面面(主要以百度关键词搜索推荐系统为例)原创 2014-09-17 20:56:58 · 11445 阅读 · 0 评论 -
集成树类模型及其在百度搜索推荐系统中的应用
决策树是经典高效的机器学习分类算法, 非常适用于线性模型效果不能满足需求, 规则描述分布比较合适的场景。而决策树与传统bagging, boosting思想结合在一起, 就形成集成树模型方法, 包括Random Forest,GBDT等方法。 在百度搜索关键词搜索推荐系统策略中,实验证明集成树模型具有非常高的预估分类准确性。原创 2014-02-20 10:50:57 · 3095 阅读 · 0 评论 -
推荐系统经典论文文献及业界应用
列了一些之前设计开发百度关键词搜索推荐引擎时, 参考过的论文, 书籍, 以及调研过的推荐系统相关的工具;同时给出参加过及未参加过的业界推荐引擎应用交流资料(有我网盘的链接), 材料组织方式参考了厂里部分同学的整理。因为推荐引擎不能算是一个独立学科,它与机器学习,数据挖掘有天然不可分的关系,所以同时列了一些这方面有用的工具及书籍,希望能对大家有所帮助。原创 2013-12-24 14:32:13 · 4743 阅读 · 0 评论 -
关键词推荐工具中的用户引导机制之三:相关搜索query技术
在上一篇《关键词推荐工具中的用户引导机制之二:suggestion架构》中, 我们提到, 在用户在搜索引擎,或是关键词推荐工具中输入搜索query片段的过程中, 我们可以提供suggestion来对用户搜索进行引导。 我们可以认为此时用户的搜索意图是不全面的。 而当用户已经输入完整query后, 用户的搜索用途已经在某种程度上明确了, 此时我们就可以使用相关搜索, 扩展出与用户输入搜索意图一致/类似的高质量query, 引导用户进行搜索, 让用户更快地获取信息, 得到所求。本文会具体介绍相关搜索类似的关键词原创 2013-10-19 01:14:33 · 3632 阅读 · 0 评论 -
PageRank的经济学效用解释
google大名鼎鼎的pagerank算法大家都耳熟能详,基本的思路就是: 网页的重要性由指向该网页的链接,及指向网页的重要性决定。那从经济学的角度, 背后隐藏的深层含义是什么呢? 说简单点,就是‘具有流动性的市场对商品价值的客观定价’。我们先举一个简单而又经典的例子: 假设在原始社会中, 没有货币的概念, 所有的交换均为物物交换。 且生产社会中只有三个生产者: 农夫(使用F表原创 2013-10-14 16:15:22 · 1561 阅读 · 0 评论 -
选择推荐算法时需要考虑得因素
推荐系统涉及到前端交互设计,后台算法选取优化, 所以在设计推荐系统时,不能单纯使用accuracy对推荐效果进行衡量,需要根据推荐系统的具体应用场景,使用对象,解决的问题使用多指标对其进行衡量。而且很多时候这些指标都是一个上涨其他跌,需要彼此间做权衡(例如在设计百度关键词推荐引擎时,就需要在关键词的召回和准确性之间进行权衡,同时要考虑用户操作的便利性,推荐关键词的多样性等)。 下边就对这些指标进行原创 2013-10-14 16:27:56 · 4492 阅读 · 0 评论 -
使用impurity选择树模型拆分节点
在近期的项目中经常会使用到连续值模型以提升模型效果。 例如在项目初期, 训练数据准备OK后,就会使用原有的LR模型初步训练model看实际的效果, 同时因为连续值模型, 特别是树类模型已经在其他项目中应用并取得较好的效果, 所以我们也会将离散特征进行变换处理后, 使用GBDT, RF看下实际效果。虽然GBDT, RF都有现成的model训练环境,直接用就可以,在项目过程中还是顺便复习了一下原创 2013-10-14 16:30:13 · 1429 阅读 · 0 评论 -
分类模型在关键词推荐系统中的应用
本文内容主要集中在使用机器学习方法判断两个短文本的相关性为基础构建商业关键词推荐系统。 为方便读者理解, 会先介绍该技术的具体应用背景及场景。原创 2013-10-14 16:36:39 · 2930 阅读 · 1 评论 -
google youtube 电影推荐算法
google youtube 电影推荐算法也可关注微博: weibo.com或者直接访问 http://semocean.com在面试实习生的时候,我有个习惯,就是面试快结束的时候,会像聊天一样和面试的学生聊一下他们对某个技术方向的看法。很多时候不是期望他们能提供什么灵感,也不期望能聊出太多结果,更多的是想通过这些沟通,看一下现在学生对这些问题的原创 2013-10-14 14:42:21 · 2367 阅读 · 0 评论 -
adaboost
使用机器学习方法解决问题时,有较多模型可供选择。 一般的思路是先根据数据的特点,快速尝试某种模型,选定某种模型后, 再进行模型参数的选择(当然时间允许的话,可以对模型和参数进行双向选择)因为不同的模型具有不同的特点, 所以有时也会将多个模型进行组合,以发挥‘三个臭皮匠顶一个诸葛亮的作用’, 这样的思路, 反应在模型中,主要有两种思路: Bagging和BoostingBagging原创 2013-10-14 16:49:44 · 1173 阅读 · 0 评论 -
如何使用机器学习解决实际问题-以关键词相关性模型为例
本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现。包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化。该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现,也可以很容易移植解决其他包括语义相关性的问题原创 2014-09-23 21:30:22 · 4627 阅读 · 1 评论