- 博客(37)
- 收藏
- 关注
原创 如何使用机器学习解决实际问题-以关键词相关性模型为例
本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现。包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化。该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现,也可以很容易移植解决其他包括语义相关性的问题
2014-09-23 21:30:22 4744 1
原创 一个完整推荐系统的设计实现-以百度关键词搜索推荐为例
在之前一篇博文中, 有同学在评论中问了个问题: 如何解决因式分解带来的推荐冷门关键词的问题。 在回答这个问题的时候, 想到了近几年在做搜索推荐系统的过程中, 学术界和工业界的一些区别。 正好最近正在做技术规划, 于是写偏文章说下工业界完整推荐系统的设计。结论是: 没有某种算法能够完全解决问题, 多重算法+交互设计, 才能解决特定场景的需求。下文也对之前的一些博文进行梳理,构成一个完整工业界推荐系统所具有的方方面面(主要以百度关键词搜索推荐系统为例)
2014-09-17 20:56:58 11651
原创 推荐系统经典论文文献及业界应用
列了一些之前设计开发百度关键词搜索推荐引擎时, 参考过的论文, 书籍, 以及调研过的推荐系统相关的工具;同时给出参加过及未参加过的业界推荐引擎应用交流资料(有我网盘的链接), 材料组织方式参考了厂里部分同学的整理。因为推荐引擎不能算是一个独立学科,它与机器学习,数据挖掘有天然不可分的关系,所以同时列了一些这方面有用的工具及书籍,希望能对大家有所帮助。
2013-12-24 14:32:13 4798
原创 因式分解实现协同过滤-及源码实现
在设计实现推荐系统,选择推荐算法时, 肯定会考虑协同过滤(CF)的使用,而CF中经常使用的两种方法包括: neighbour-based方法和因式分解。 作为一个搜索推荐系统,百度关键词系统中也使用了CF(包括neighbour-based和因式分解方法)为用户推荐流量,考虑到可解释性和工程上在hadoop上实现的便利性,最终主要使用了neighbour-based中的item-based方法。但学术上,因式分解会从全局考虑用户投票的影响,所以理论和实践上效果都会更好。本文主要结合之前对因式分解的调研理解及
2013-12-18 14:40:48 2264
原创 百度搜索引擎变现策略指标体系
下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程。为什么需要商业变现策略指标体系一般情况下,一个互联网产品,或是一个移动端产品在发展前期,主要会关注流量及用户量的增长。当流量,用户量做到一定程度时,就会考虑商业变现。例如今日头条,美丽说,高德地图这样的产品现在都开始商业化变现。而要从变现效果,效率衡量整个系统,以及监控技术策略对系统变现的贡献时,就需要建立一套完善的策略指标体系监控系统当前的状况, 发现系统策略效果瓶颈并有
2014-08-05 13:07:16 5217 2
原创 《小米是如何炼成的》-雷军百度讲互联网思维做手机
雷军前些天到百度给百度的员工进行了一次演讲, 演讲的题目是《我和小米这三年》, 主要介绍了小米的铁人三项:软件,硬件和互联网服务; 以及如何用互联网思维做手机。 尽管是非开放性报名, 仅有高T和M序列能报名。虽然讲座在百度大厦最大的五福降中天举行,但现场还是超级爆满,而且很多没报上名的同学很早就在现场门外守候, 期望最后能有机会进场。黑百度的开场雷军上台演讲后, 先没干别的, 立马
2014-03-09 10:35:35 2954 1
原创 级联二步图关系挖掘关键词推荐系统及实现代码
youtube使用简单的共现思路, 实现视频的高效推荐。 受到该思路的启发, 我们基于百度凤巢广告主在广告库中提交的关键词, 更进一步设计出可级联的二部图关系挖掘算法框架, 实现亿量级关键词, 千万级别用户(单元结构)的高效推荐。 本文即对该算法的实现进行详细介绍,并在最后给出实验结果。youtube 推荐算法首先还是简单介绍下youtube使用的推荐算法。 符合google系一贯
2014-02-21 09:45:21 2960 1
原创 集成树类模型及其在百度搜索推荐系统中的应用
决策树是经典高效的机器学习分类算法, 非常适用于线性模型效果不能满足需求, 规则描述分布比较合适的场景。而决策树与传统bagging, boosting思想结合在一起, 就形成集成树模型方法, 包括Random Forest,GBDT等方法。 在百度搜索关键词搜索推荐系统策略中,实验证明集成树模型具有非常高的预估分类准确性。
2014-02-20 10:50:57 3126
原创 管理者如何做好团队规划
之前看过一篇文章,讲述的是孙正义如何设定目标及如何达成目标, 具体的原话忘了, 大概的思路是: 先设想自己10年后想达成的状态和目标,之后再分析要达到这个目标, 在第8年的时候需要哪些资源.....进行团队规划时,也是如此。下边就来介绍在百度关键词搜索推荐团队中, 我们一般是怎么做团队规划的。
2014-01-03 17:20:45 5299 1
原创 百度在 2013 年是衰落的吗?是有怎样的依据?
知乎上受邀回答问题:“百度在 2013 年是衰落的吗?是有怎样的依据?”我的观点: 2013年百度各业务发展势头都还算不错,中规中矩, 没看出特别出彩, 但完全谈不上差,而且一些行动,给别人看到老大的决心。现有搜索业务,中间页, LBS, 无线等战略方向均顺畅地推进中, 国际化没啥动静
2014-01-02 19:49:23 2032
原创 管理者如何保持团队稳定性
前段时间,各大互联网公司间举行了一次‘互联网公司足球大赛’,其中一场比赛是百度对战360, 百度有最帅气年轻的VP李明远参与的球队, 最终于。。。。先不说最终比分如何,微博上一条神回复让我觉得挺搞笑但又挺有感触: ‘足球比赛,百度VS 360 是百度老员工和百度新员工的比赛’事实其实也是这样,和我一起08年入职还在公司的员工真心不多。每次我刚入职所在的小组的10多个同事聚会,提到我还在公司,他们都会露出惊讶的表情: 怎么还在百度!
2013-12-14 20:37:56 11003 2
原创 epoll机制在搜索引擎spider中的应用
本文将介绍epoll的概念,原理, 优点,及使用接口,同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler,将国内著名票务网站压垮并在boss的带领下登门道歉的经历:) 足见epoll的强悍!
2013-10-23 20:38:02 1156
原创 关键词推荐工具中的用户引导机制之四:种子query推荐
上一篇《关键词推荐工具中的用户引导机制之三:相关搜索query技术》中, 我们提到可使用用户query-点击日志,session数据,及网页内容,挖掘与query意图相关(同时具有变现价值)的相query推荐给客户引导用户优化搜索。 如用户还未输入,此时搜索引擎默认直接展示搜索框。但在关键词推荐系统中,更好的选择是push与用户相关高质量query,帮助用户高效发现兴趣点,本文将介绍在关键词推荐系统中,实现种子词推荐产品及策略
2013-10-21 22:01:44 2109
原创 关键词推荐工具中的用户引导机制之三:相关搜索query技术
在上一篇《关键词推荐工具中的用户引导机制之二:suggestion架构》中, 我们提到, 在用户在搜索引擎,或是关键词推荐工具中输入搜索query片段的过程中, 我们可以提供suggestion来对用户搜索进行引导。 我们可以认为此时用户的搜索意图是不全面的。 而当用户已经输入完整query后, 用户的搜索用途已经在某种程度上明确了, 此时我们就可以使用相关搜索, 扩展出与用户输入搜索意图一致/类似的高质量query, 引导用户进行搜索, 让用户更快地获取信息, 得到所求。本文会具体介绍相关搜索类似的关键词
2013-10-19 01:14:33 3732
原创 关键词推荐工具中的用户引导机制之二:suggestion架构
在《关键词推荐工具中的用户引导机制之一》 我们分析了用户用到机制对搜索引擎/关键词工具的重要性,同时也提到按照用户在搜索引擎/或者关键词工具上交互的阶段,可以按交互前,交互中和交互后为用户分别提供种子query,suggestion和相关搜索词对用户进行引导。 种子query是比较经典的推荐问题, 对于‘相关搜索’,后续会有博文专门介绍, 该文以下内容主要介绍如何构造高效的suggestion服务。包括架构及内部检索逻辑。
2013-10-17 14:11:15 3082
原创 如何与理智的对手沟通谈判
刚工作的时候信奉‘对事不对人’, 在百度七剑客之一的崔珊珊给我们做了一次管理培训时,才发现,不可能绝对地‘对事不对人’ 那应该怎么和理智的在工作中与人沟通谈判呢, 几年前读了《谈判力》这本书收获颇多,现在将很早前写的读书笔记,新加了一些心得,分享给大家,希望对大家有帮助。
2013-10-15 16:13:30 1615
原创 <帝范>-审官
正文如下: 夫设官分职,所以阐化宣风。故明主之任人,如巧匠之制木,直者以为辕,曲者以为轮;长者以为栋梁,短者以为栱角。无曲直长短,各有所施。明主之任人,亦由是也。智者取其谋,愚者取其力;勇者取其威,怯者取其慎,无智、愚、勇、怯,兼而用之。故良匠无弃材,明主无弃士。不以一恶忘其善;勿以小瑕掩其功。割政分机,尽其所有。然则函牛之鼎,不可处以烹鸡;捕鼠之狸,不可使以搏兽;一
2013-10-14 17:32:02 1302
原创 <帝范>读后感
以前每次拿起金庸老先生的武侠小说都会爱不释手,而且每次都会产生这样的感想:‘这部武侠小说如果放到古代, 那就是中国五大古典名著之一啦!’ 但自从看了朋友推荐二月河的《康熙王朝》,《雍正皇帝》, 《乾隆皇帝》后, 发现历史小说也比较有吸引力, 而且相较金庸浪漫主义的武侠外, 历史小说更有现实明鉴作用。 有天突想, 讲鞑子皇帝的小说都如此有吸引了,
2013-10-14 17:29:56 1651
原创 关键词推荐工具中的用户引导机制
搜索引擎根据网民输入的检索词(query)猜测网民需要的信息, 之后进行检索, 排序后将相关的信息展现给网民。 因为网名输入的query一般都较短, 而且不同的网民使用搜索引擎的能力也不一样。 所以一般搜索引擎都会有些查询引导机制, 在猜测用户可能的意图后, 推荐一些相关且高质量的种子query给网民。例如在百度搜索框搜索‘关键词工具’,在搜索结果的最下方,出现以下相关搜索结果:这
2013-10-14 17:05:25 1791 1
原创 搜索引擎点击日志聚类实现相关搜索
介绍了搜索引擎如何使用查询点击行为数据进行query及url聚类。目前几大主流搜索引擎(包括google, 百度等)等在很多应用中均使用类似方式对query进行聚类,挖掘高相关度query。
2013-10-14 17:00:42 3159
原创 经典聚类算法及在互联网的应用
简单回顾了以下几类聚类算法, 包括partitioning , hierachical聚类和EM.以及这些聚类算法在我过去几年在百度工作期间的应用过程,希望对大家有所帮助
2013-10-14 16:55:25 11263
原创 adaboost
使用机器学习方法解决问题时,有较多模型可供选择。 一般的思路是先根据数据的特点,快速尝试某种模型,选定某种模型后, 再进行模型参数的选择(当然时间允许的话,可以对模型和参数进行双向选择)因为不同的模型具有不同的特点, 所以有时也会将多个模型进行组合,以发挥‘三个臭皮匠顶一个诸葛亮的作用’, 这样的思路, 反应在模型中,主要有两种思路: Bagging和BoostingBagging
2013-10-14 16:49:44 1204
原创 分类模型在关键词推荐系统中的应用
本文内容主要集中在使用机器学习方法判断两个短文本的相关性为基础构建商业关键词推荐系统。 为方便读者理解, 会先介绍该技术的具体应用背景及场景。
2013-10-14 16:36:39 2954 1
原创 使用impurity选择树模型拆分节点
在近期的项目中经常会使用到连续值模型以提升模型效果。 例如在项目初期, 训练数据准备OK后,就会使用原有的LR模型初步训练model看实际的效果, 同时因为连续值模型, 特别是树类模型已经在其他项目中应用并取得较好的效果, 所以我们也会将离散特征进行变换处理后, 使用GBDT, RF看下实际效果。虽然GBDT, RF都有现成的model训练环境,直接用就可以,在项目过程中还是顺便复习了一下
2013-10-14 16:30:13 1465
原创 选择推荐算法时需要考虑得因素
推荐系统涉及到前端交互设计,后台算法选取优化, 所以在设计推荐系统时,不能单纯使用accuracy对推荐效果进行衡量,需要根据推荐系统的具体应用场景,使用对象,解决的问题使用多指标对其进行衡量。而且很多时候这些指标都是一个上涨其他跌,需要彼此间做权衡(例如在设计百度关键词推荐引擎时,就需要在关键词的召回和准确性之间进行权衡,同时要考虑用户操作的便利性,推荐关键词的多样性等)。 下边就对这些指标进行
2013-10-14 16:27:56 4603
原创 使用NDCG评估关键词推荐系统的相关性
对于传统推荐策略, 我们在验证其效果的时候, 一般会采用以下流程验证其实验效果:offline 的评测: 思路基本和传统机器学习的思路类似, 例如在推荐算法中我们直接使用AUC,F2等评估模型效果一样, 线下使用测试数据就能知道算法的初步效果。用户调研实验: 该方式需要人的参与, 例如招一批人, 不告诉他们新老算法的界面或是使用的算法, 然后看用户的行为, 之后使用他们的最终交互, 或是选
2013-10-14 16:26:01 1613
原创 使用NDCG评估关键词推荐系统的相关性
对于传统推荐策略, 我们在验证其效果的时候, 一般会采用以下流程验证其实验效果:offline 的评测: 思路基本和传统机器学习的思路类似, 例如在推荐算法中我们直接使用AUC,F2等评估模型效果一样, 线下使用测试数据就能知道算法的初步效果。用户调研实验: 该方式需要人的参与, 例如招一批人, 不告诉他们新老算法的界面或是使用的算法, 然后看用户的行为, 之后使用他们的最终交互, 或是选
2013-10-14 16:24:42 2833 2
原创 关键词推荐系统架构
在百度做关键词推荐系统3年多, 以前更多是从工程, 以及解决用户需求的角度去考虑系统的实现。 大概一年前开始系统地学习业界推荐系统相关的内容并对照自己手头的工作。 当时就画了以下系统结构图, 算是对百度关键词系统(KR: Keyword Recommendation)中主动推荐(主动push结果给客户)的一个总结。系统逻辑图如下:qiang当中包含以下几个重要步骤:
2013-10-14 16:20:27 4163
原创 PageRank的经济学效用解释
google大名鼎鼎的pagerank算法大家都耳熟能详,基本的思路就是: 网页的重要性由指向该网页的链接,及指向网页的重要性决定。那从经济学的角度, 背后隐藏的深层含义是什么呢? 说简单点,就是‘具有流动性的市场对商品价值的客观定价’。我们先举一个简单而又经典的例子: 假设在原始社会中, 没有货币的概念, 所有的交换均为物物交换。 且生产社会中只有三个生产者: 农夫(使用F表
2013-10-14 16:15:22 1620
原创 特定场景的Cralwer
有时也叫Crawler。今天整理电脑文档的时候发现很早09年初自己写的一个crawler的设计文档, 打开这个50多页的文档,里边N多的逻辑图及规范定义的数据结构, 才觉得真的好久没有见过写得那么规范的文档了(也许有点自夸, 或者码农都觉得自己的就是规范: )将其中的总体设计图分享给大家参考,确切的说,并不是一个完整的crawler,而是一个连通性检查模块,所以当中更增加了很多定制
2013-10-14 16:00:32 1161
原创 google youtube 电影推荐算法
google youtube 电影推荐算法也可关注微博: weibo.com或者直接访问 http://semocean.com在面试实习生的时候,我有个习惯,就是面试快结束的时候,会像聊天一样和面试的学生聊一下他们对某个技术方向的看法。很多时候不是期望他们能提供什么灵感,也不期望能聊出太多结果,更多的是想通过这些沟通,看一下现在学生对这些问题的
2013-10-14 14:42:21 2416
原创 Collaborative Filtering根据近邻推荐时需要考虑的3要素
Collaborative Filtering根据近邻推荐时需要考虑的3要素可关注微博: weibo.com/dustinsea也可直接访问: http://semocean.com在使用类似于item-based 或user-based collaborative filtering构建推荐策略时,会涉及以下3个因素:训练数据的
2013-10-14 14:38:30 1028
原创 协同过滤中item-based与user-based选择依据
协同过滤中item-based与user-based选择依据也可关注我的微博: weibo.com/dustinsea或是直接访问: http://semocean.com协同过滤是大家熟知的推荐算法。 总的来说协同过滤又可以分为以下两大类:Neighborhood-based:计算相似item 或user后进行推荐Model-based: 直接训
2013-10-14 14:32:20 1876
原创 google的商业产品之路
google的商业产品之路也可关注我的微博: weibo.com/dustinsea或是直接访问: http://semocean.com之前公司从google总部招了一个经验非常丰富的PM。入职后就请他给大家为大家布道google的商业产品推进的方法。 听了之后感触颇多, 在此与记录并与大家分享(因为自己也是学习别人在google的经验, 当中会加上一些自己工作
2013-10-14 14:28:22 1059
原创 推荐系统中的相似度度量
推荐系统中的相似度度量也可关注我的微博: weibo.com/dustinsea或直接访问 semocean.com相似度计算是数据挖掘,推荐引擎中的最基本问题,例如在推荐系统(Recommender Systems,简称RSs)中计算带推荐物品(Item)相似度,或是用户(User)之间的相似度以期获得兴趣口味(Taste)相似的用户时,均需要使用到相似
2013-10-14 14:23:46 4262
原创 Google experiment infrastructure 阅读心得
背景Google 的文化就是数据驱动:不停实验,不断得到实验结果进行分析并进行改进,这样就会导致所有R&D(Researcher&Developer)都会有不断实验的冲动和需求。这就对实验框架提出了文中重点描述的三个需求:1. More: 更多能够同时进行的实验2. Better:不合法的实验不能在框架中实验, 而合法的实验, 但如果效果不佳, 则应该能够被
2011-07-11 14:50:39 3012
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人