搜索引擎
dustinsea
百度关键词搜索推荐系统Maker
展开
-
搜索引擎点击日志聚类实现相关搜索
介绍了搜索引擎如何使用查询点击行为数据进行query及url聚类。目前几大主流搜索引擎(包括google, 百度等)等在很多应用中均使用类似方式对query进行聚类,挖掘高相关度query。原创 2013-10-14 17:00:42 · 3152 阅读 · 0 评论 -
PageRank的经济学效用解释
google大名鼎鼎的pagerank算法大家都耳熟能详,基本的思路就是: 网页的重要性由指向该网页的链接,及指向网页的重要性决定。那从经济学的角度, 背后隐藏的深层含义是什么呢? 说简单点,就是‘具有流动性的市场对商品价值的客观定价’。我们先举一个简单而又经典的例子: 假设在原始社会中, 没有货币的概念, 所有的交换均为物物交换。 且生产社会中只有三个生产者: 农夫(使用F表原创 2013-10-14 16:15:22 · 1611 阅读 · 0 评论 -
google的商业产品之路
google的商业产品之路也可关注我的微博: weibo.com/dustinsea或是直接访问: http://semocean.com之前公司从google总部招了一个经验非常丰富的PM。入职后就请他给大家为大家布道google的商业产品推进的方法。 听了之后感触颇多, 在此与记录并与大家分享(因为自己也是学习别人在google的经验, 当中会加上一些自己工作原创 2013-10-14 14:28:22 · 1055 阅读 · 0 评论 -
关键词推荐工具中的用户引导机制之二:suggestion架构
在《关键词推荐工具中的用户引导机制之一》 我们分析了用户用到机制对搜索引擎/关键词工具的重要性,同时也提到按照用户在搜索引擎/或者关键词工具上交互的阶段,可以按交互前,交互中和交互后为用户分别提供种子query,suggestion和相关搜索词对用户进行引导。 种子query是比较经典的推荐问题, 对于‘相关搜索’,后续会有博文专门介绍, 该文以下内容主要介绍如何构造高效的suggestion服务。包括架构及内部检索逻辑。原创 2013-10-17 14:11:15 · 3060 阅读 · 0 评论 -
关键词推荐工具中的用户引导机制之三:相关搜索query技术
在上一篇《关键词推荐工具中的用户引导机制之二:suggestion架构》中, 我们提到, 在用户在搜索引擎,或是关键词推荐工具中输入搜索query片段的过程中, 我们可以提供suggestion来对用户搜索进行引导。 我们可以认为此时用户的搜索意图是不全面的。 而当用户已经输入完整query后, 用户的搜索用途已经在某种程度上明确了, 此时我们就可以使用相关搜索, 扩展出与用户输入搜索意图一致/类似的高质量query, 引导用户进行搜索, 让用户更快地获取信息, 得到所求。本文会具体介绍相关搜索类似的关键词原创 2013-10-19 01:14:33 · 3710 阅读 · 0 评论 -
关键词推荐工具中的用户引导机制之四:种子query推荐
上一篇《关键词推荐工具中的用户引导机制之三:相关搜索query技术》中, 我们提到可使用用户query-点击日志,session数据,及网页内容,挖掘与query意图相关(同时具有变现价值)的相query推荐给客户引导用户优化搜索。 如用户还未输入,此时搜索引擎默认直接展示搜索框。但在关键词推荐系统中,更好的选择是push与用户相关高质量query,帮助用户高效发现兴趣点,本文将介绍在关键词推荐系统中,实现种子词推荐产品及策略原创 2013-10-21 22:01:44 · 2092 阅读 · 0 评论 -
epoll机制在搜索引擎spider中的应用
本文将介绍epoll的概念,原理, 优点,及使用接口,同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler,将国内著名票务网站压垮并在boss的带领下登门道歉的经历:) 足见epoll的强悍!原创 2013-10-23 20:38:02 · 1152 阅读 · 0 评论 -
因式分解实现协同过滤-及源码实现
在设计实现推荐系统,选择推荐算法时, 肯定会考虑协同过滤(CF)的使用,而CF中经常使用的两种方法包括: neighbour-based方法和因式分解。 作为一个搜索推荐系统,百度关键词系统中也使用了CF(包括neighbour-based和因式分解方法)为用户推荐流量,考虑到可解释性和工程上在hadoop上实现的便利性,最终主要使用了neighbour-based中的item-based方法。但学术上,因式分解会从全局考虑用户投票的影响,所以理论和实践上效果都会更好。本文主要结合之前对因式分解的调研理解及原创 2013-12-18 14:40:48 · 2255 阅读 · 0 评论 -
推荐系统经典论文文献及业界应用
列了一些之前设计开发百度关键词搜索推荐引擎时, 参考过的论文, 书籍, 以及调研过的推荐系统相关的工具;同时给出参加过及未参加过的业界推荐引擎应用交流资料(有我网盘的链接), 材料组织方式参考了厂里部分同学的整理。因为推荐引擎不能算是一个独立学科,它与机器学习,数据挖掘有天然不可分的关系,所以同时列了一些这方面有用的工具及书籍,希望能对大家有所帮助。原创 2013-12-24 14:32:13 · 4781 阅读 · 0 评论 -
百度搜索引擎变现策略指标体系
下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程。为什么需要商业变现策略指标体系一般情况下,一个互联网产品,或是一个移动端产品在发展前期,主要会关注流量及用户量的增长。当流量,用户量做到一定程度时,就会考虑商业变现。例如今日头条,美丽说,高德地图这样的产品现在都开始商业化变现。而要从变现效果,效率衡量整个系统,以及监控技术策略对系统变现的贡献时,就需要建立一套完善的策略指标体系监控系统当前的状况, 发现系统策略效果瓶颈并有原创 2014-08-05 13:07:16 · 5195 阅读 · 2 评论 -
选择推荐算法时需要考虑得因素
推荐系统涉及到前端交互设计,后台算法选取优化, 所以在设计推荐系统时,不能单纯使用accuracy对推荐效果进行衡量,需要根据推荐系统的具体应用场景,使用对象,解决的问题使用多指标对其进行衡量。而且很多时候这些指标都是一个上涨其他跌,需要彼此间做权衡(例如在设计百度关键词推荐引擎时,就需要在关键词的召回和准确性之间进行权衡,同时要考虑用户操作的便利性,推荐关键词的多样性等)。 下边就对这些指标进行原创 2013-10-14 16:27:56 · 4580 阅读 · 0 评论 -
使用impurity选择树模型拆分节点
在近期的项目中经常会使用到连续值模型以提升模型效果。 例如在项目初期, 训练数据准备OK后,就会使用原有的LR模型初步训练model看实际的效果, 同时因为连续值模型, 特别是树类模型已经在其他项目中应用并取得较好的效果, 所以我们也会将离散特征进行变换处理后, 使用GBDT, RF看下实际效果。虽然GBDT, RF都有现成的model训练环境,直接用就可以,在项目过程中还是顺便复习了一下原创 2013-10-14 16:30:13 · 1451 阅读 · 0 评论 -
分类模型在关键词推荐系统中的应用
本文内容主要集中在使用机器学习方法判断两个短文本的相关性为基础构建商业关键词推荐系统。 为方便读者理解, 会先介绍该技术的具体应用背景及场景。原创 2013-10-14 16:36:39 · 2946 阅读 · 1 评论 -
经典聚类算法及在互联网的应用
简单回顾了以下几类聚类算法, 包括partitioning , hierachical聚类和EM.以及这些聚类算法在我过去几年在百度工作期间的应用过程,希望对大家有所帮助原创 2013-10-14 16:55:25 · 11242 阅读 · 0 评论 -
关键词推荐工具中的用户引导机制
搜索引擎根据网民输入的检索词(query)猜测网民需要的信息, 之后进行检索, 排序后将相关的信息展现给网民。 因为网名输入的query一般都较短, 而且不同的网民使用搜索引擎的能力也不一样。 所以一般搜索引擎都会有些查询引导机制, 在猜测用户可能的意图后, 推荐一些相关且高质量的种子query给网民。例如在百度搜索框搜索‘关键词工具’,在搜索结果的最下方,出现以下相关搜索结果:这原创 2013-10-14 17:05:25 · 1772 阅读 · 1 评论 -
关键词推荐系统架构
在百度做关键词推荐系统3年多, 以前更多是从工程, 以及解决用户需求的角度去考虑系统的实现。 大概一年前开始系统地学习业界推荐系统相关的内容并对照自己手头的工作。 当时就画了以下系统结构图, 算是对百度关键词系统(KR: Keyword Recommendation)中主动推荐(主动push结果给客户)的一个总结。系统逻辑图如下:qiang当中包含以下几个重要步骤:原创 2013-10-14 16:20:27 · 4142 阅读 · 0 评论 -
Collaborative Filtering根据近邻推荐时需要考虑的3要素
Collaborative Filtering根据近邻推荐时需要考虑的3要素可关注微博: weibo.com/dustinsea也可直接访问: http://semocean.com在使用类似于item-based 或user-based collaborative filtering构建推荐策略时,会涉及以下3个因素:训练数据的原创 2013-10-14 14:38:30 · 1021 阅读 · 0 评论 -
adaboost
使用机器学习方法解决问题时,有较多模型可供选择。 一般的思路是先根据数据的特点,快速尝试某种模型,选定某种模型后, 再进行模型参数的选择(当然时间允许的话,可以对模型和参数进行双向选择)因为不同的模型具有不同的特点, 所以有时也会将多个模型进行组合,以发挥‘三个臭皮匠顶一个诸葛亮的作用’, 这样的思路, 反应在模型中,主要有两种思路: Bagging和BoostingBagging原创 2013-10-14 16:49:44 · 1198 阅读 · 0 评论 -
使用NDCG评估关键词推荐系统的相关性
对于传统推荐策略, 我们在验证其效果的时候, 一般会采用以下流程验证其实验效果:offline 的评测: 思路基本和传统机器学习的思路类似, 例如在推荐算法中我们直接使用AUC,F2等评估模型效果一样, 线下使用测试数据就能知道算法的初步效果。用户调研实验: 该方式需要人的参与, 例如招一批人, 不告诉他们新老算法的界面或是使用的算法, 然后看用户的行为, 之后使用他们的最终交互, 或是选原创 2013-10-14 16:26:01 · 1604 阅读 · 0 评论 -
google youtube 电影推荐算法
google youtube 电影推荐算法也可关注微博: weibo.com或者直接访问 http://semocean.com在面试实习生的时候,我有个习惯,就是面试快结束的时候,会像聊天一样和面试的学生聊一下他们对某个技术方向的看法。很多时候不是期望他们能提供什么灵感,也不期望能聊出太多结果,更多的是想通过这些沟通,看一下现在学生对这些问题的原创 2013-10-14 14:42:21 · 2404 阅读 · 0 评论 -
协同过滤中item-based与user-based选择依据
协同过滤中item-based与user-based选择依据也可关注我的微博: weibo.com/dustinsea或是直接访问: http://semocean.com协同过滤是大家熟知的推荐算法。 总的来说协同过滤又可以分为以下两大类:Neighborhood-based:计算相似item 或user后进行推荐Model-based: 直接训原创 2013-10-14 14:32:20 · 1870 阅读 · 0 评论 -
特定场景的Cralwer
有时也叫Crawler。今天整理电脑文档的时候发现很早09年初自己写的一个crawler的设计文档, 打开这个50多页的文档,里边N多的逻辑图及规范定义的数据结构, 才觉得真的好久没有见过写得那么规范的文档了(也许有点自夸, 或者码农都觉得自己的就是规范: )将其中的总体设计图分享给大家参考,确切的说,并不是一个完整的crawler,而是一个连通性检查模块,所以当中更增加了很多定制原创 2013-10-14 16:00:32 · 1153 阅读 · 0 评论 -
Google experiment infrastructure 阅读心得
背景Google 的文化就是数据驱动:不停实验,不断得到实验结果进行分析并进行改进,这样就会导致所有R&D(Researcher&Developer)都会有不断实验的冲动和需求。这就对实验框架提出了文中重点描述的三个需求:1. More: 更多能够同时进行的实验2. Better:不合法的实验不能在框架中实验, 而合法的实验, 但如果效果不佳, 则应该能够被原创 2011-07-11 14:50:39 · 3003 阅读 · 0 评论 -
如何使用机器学习解决实际问题-以关键词相关性模型为例
本文以百度关键词搜索推荐工具字面相关性模型为基础,介绍一个机器学习任务的具体设计实现。包括目标的设定,训练数据准备,特征选择及筛选, 以及模型的训练及优化。该模型可扩展到语意相关性模型,搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现,也可以很容易移植解决其他包括语义相关性的问题原创 2014-09-23 21:30:22 · 4725 阅读 · 1 评论