2013年10月_dustinsea

原创 epoll机制在搜索引擎spider中的应用

本文将介绍epoll的概念，原理，优点，及使用接口，同时结合作者在搜索引擎spider开发中epoll使用方式的代码向大家具体介绍epoll的使用方式。P.S. 笔者08年曾有使用epoll编写未考虑压力控制的crawler，将国内著名票务网站压垮并在boss的带领下登门道歉的经历：）足见epoll的强悍!

2013-10-23 20:38:02 1130

上一篇《关键词推荐工具中的用户引导机制之三：相关搜索query技术》中，我们提到可使用用户query-点击日志，session数据，及网页内容，挖掘与query意图相关（同时具有变现价值）的相query推荐给客户引导用户优化搜索。如用户还未输入，此时搜索引擎默认直接展示搜索框。但在关键词推荐系统中，更好的选择是push与用户相关高质量query，帮助用户高效发现兴趣点，本文将介绍在关键词推荐系统中，实现种子词推荐产品及策略

2013-10-21 22:01:44 2044

原创关键词推荐工具中的用户引导机制之三：相关搜索query技术

在上一篇《关键词推荐工具中的用户引导机制之二：suggestion架构》中，我们提到，在用户在搜索引擎，或是关键词推荐工具中输入搜索query片段的过程中，我们可以提供suggestion来对用户搜索进行引导。我们可以认为此时用户的搜索意图是不全面的。而当用户已经输入完整query后，用户的搜索用途已经在某种程度上明确了，此时我们就可以使用相关搜索，扩展出与用户输入搜索意图一致/类似的高质量query，引导用户进行搜索，让用户更快地获取信息，得到所求。本文会具体介绍相关搜索类似的关键词

2013-10-19 01:14:33 3632

原创关键词推荐工具中的用户引导机制之二：suggestion架构

在《关键词推荐工具中的用户引导机制之一》我们分析了用户用到机制对搜索引擎/关键词工具的重要性，同时也提到按照用户在搜索引擎/或者关键词工具上交互的阶段，可以按交互前，交互中和交互后为用户分别提供种子query，suggestion和相关搜索词对用户进行引导。种子query是比较经典的推荐问题，对于‘相关搜索’，后续会有博文专门介绍，该文以下内容主要介绍如何构造高效的suggestion服务。包括架构及内部检索逻辑。

2013-10-17 14:11:15 2986

原创如何与理智的对手沟通谈判

刚工作的时候信奉‘对事不对人’，在百度七剑客之一的崔珊珊给我们做了一次管理培训时，才发现，不可能绝对地‘对事不对人’ 那应该怎么和理智的在工作中与人沟通谈判呢，几年前读了《谈判力》这本书收获颇多，现在将很早前写的读书笔记，新加了一些心得，分享给大家，希望对大家有帮助。

2013-10-15 16:13:30 1558

原创 <帝范>-审官

正文如下：夫设官分职，所以阐化宣风。故明主之任人，如巧匠之制木，直者以为辕，曲者以为轮；长者以为栋梁，短者以为栱角。无曲直长短，各有所施。明主之任人，亦由是也。智者取其谋，愚者取其力；勇者取其威，怯者取其慎，无智、愚、勇、怯，兼而用之。故良匠无弃材，明主无弃士。不以一恶忘其善；勿以小瑕掩其功。割政分机，尽其所有。然则函牛之鼎，不可处以烹鸡；捕鼠之狸，不可使以搏兽；一

2013-10-14 17:32:02 1251

原创 <帝范>读后感

以前每次拿起金庸老先生的武侠小说都会爱不释手，而且每次都会产生这样的感想：‘这部武侠小说如果放到古代，那就是中国五大古典名著之一啦！’ 但自从看了朋友推荐二月河的《康熙王朝》，《雍正皇帝》，《乾隆皇帝》后，发现历史小说也比较有吸引力，而且相较金庸浪漫主义的武侠外，历史小说更有现实明鉴作用。有天突想，讲鞑子皇帝的小说都如此有吸引了，

2013-10-14 17:29:56 1601

原创关键词推荐工具中的用户引导机制

搜索引擎根据网民输入的检索词(query)猜测网民需要的信息，之后进行检索，排序后将相关的信息展现给网民。因为网名输入的query一般都较短，而且不同的网民使用搜索引擎的能力也不一样。所以一般搜索引擎都会有些查询引导机制，在猜测用户可能的意图后，推荐一些相关且高质量的种子query给网民。例如在百度搜索框搜索‘关键词工具’，在搜索结果的最下方，出现以下相关搜索结果：这

2013-10-14 17:05:25 1715 1

原创搜索引擎点击日志聚类实现相关搜索

介绍了搜索引擎如何使用查询点击行为数据进行query及url聚类。目前几大主流搜索引擎（包括google, 百度等）等在很多应用中均使用类似方式对query进行聚类，挖掘高相关度query。

2013-10-14 17:00:42 3111

原创经典聚类算法及在互联网的应用

简单回顾了以下几类聚类算法，包括partitioning , hierachical聚类和EM.以及这些聚类算法在我过去几年在百度工作期间的应用过程，希望对大家有所帮助

2013-10-14 16:55:25 11103

原创 adaboost

使用机器学习方法解决问题时，有较多模型可供选择。一般的思路是先根据数据的特点，快速尝试某种模型，选定某种模型后，再进行模型参数的选择（当然时间允许的话，可以对模型和参数进行双向选择）因为不同的模型具有不同的特点，所以有时也会将多个模型进行组合，以发挥‘三个臭皮匠顶一个诸葛亮的作用’，这样的思路，反应在模型中，主要有两种思路： Bagging和BoostingBagging

2013-10-14 16:49:44 1173

原创分类模型在关键词推荐系统中的应用

本文内容主要集中在使用机器学习方法判断两个短文本的相关性为基础构建商业关键词推荐系统。为方便读者理解，会先介绍该技术的具体应用背景及场景。

2013-10-14 16:36:39 2930 1

原创使用impurity选择树模型拆分节点

在近期的项目中经常会使用到连续值模型以提升模型效果。例如在项目初期，训练数据准备OK后，就会使用原有的LR模型初步训练model看实际的效果，同时因为连续值模型，特别是树类模型已经在其他项目中应用并取得较好的效果，所以我们也会将离散特征进行变换处理后，使用GBDT, RF看下实际效果。虽然GBDT, RF都有现成的model训练环境，直接用就可以，在项目过程中还是顺便复习了一下

2013-10-14 16:30:13 1429

原创选择推荐算法时需要考虑得因素

推荐系统涉及到前端交互设计，后台算法选取优化，所以在设计推荐系统时，不能单纯使用accuracy对推荐效果进行衡量，需要根据推荐系统的具体应用场景，使用对象，解决的问题使用多指标对其进行衡量。而且很多时候这些指标都是一个上涨其他跌，需要彼此间做权衡（例如在设计百度关键词推荐引擎时，就需要在关键词的召回和准确性之间进行权衡，同时要考虑用户操作的便利性，推荐关键词的多样性等）。下边就对这些指标进行

2013-10-14 16:27:56 4492

原创使用NDCG评估关键词推荐系统的相关性

对于传统推荐策略，我们在验证其效果的时候，一般会采用以下流程验证其实验效果：offline 的评测：思路基本和传统机器学习的思路类似，例如在推荐算法中我们直接使用AUC，F2等评估模型效果一样，线下使用测试数据就能知道算法的初步效果。用户调研实验：该方式需要人的参与，例如招一批人，不告诉他们新老算法的界面或是使用的算法，然后看用户的行为，之后使用他们的最终交互，或是选

2013-10-14 16:26:01 1575

原创使用NDCG评估关键词推荐系统的相关性

对于传统推荐策略，我们在验证其效果的时候，一般会采用以下流程验证其实验效果：offline 的评测：思路基本和传统机器学习的思路类似，例如在推荐算法中我们直接使用AUC，F2等评估模型效果一样，线下使用测试数据就能知道算法的初步效果。用户调研实验：该方式需要人的参与，例如招一批人，不告诉他们新老算法的界面或是使用的算法，然后看用户的行为，之后使用他们的最终交互，或是选

2013-10-14 16:24:42 2798 2

原创关键词推荐系统架构

在百度做关键词推荐系统3年多，以前更多是从工程，以及解决用户需求的角度去考虑系统的实现。大概一年前开始系统地学习业界推荐系统相关的内容并对照自己手头的工作。当时就画了以下系统结构图，算是对百度关键词系统（KR： Keyword Recommendation）中主动推荐（主动push结果给客户）的一个总结。系统逻辑图如下：qiang当中包含以下几个重要步骤：

2013-10-14 16:20:27 4073

原创 PageRank的经济学效用解释

google大名鼎鼎的pagerank算法大家都耳熟能详，基本的思路就是：网页的重要性由指向该网页的链接，及指向网页的重要性决定。那从经济学的角度，背后隐藏的深层含义是什么呢？说简单点，就是‘具有流动性的市场对商品价值的客观定价’。我们先举一个简单而又经典的例子：假设在原始社会中，没有货币的概念，所有的交换均为物物交换。且生产社会中只有三个生产者：农夫（使用F表

2013-10-14 16:15:22 1561

原创特定场景的Cralwer

有时也叫Crawler。今天整理电脑文档的时候发现很早09年初自己写的一个crawler的设计文档，打开这个50多页的文档，里边N多的逻辑图及规范定义的数据结构，才觉得真的好久没有见过写得那么规范的文档了（也许有点自夸，或者码农都觉得自己的就是规范：）将其中的总体设计图分享给大家参考，确切的说，并不是一个完整的crawler，而是一个连通性检查模块，所以当中更增加了很多定制

2013-10-14 16:00:32 1130

原创 google youtube 电影推荐算法

google youtube 电影推荐算法也可关注微博： weibo.com或者直接访问 http://semocean.com在面试实习生的时候，我有个习惯，就是面试快结束的时候，会像聊天一样和面试的学生聊一下他们对某个技术方向的看法。很多时候不是期望他们能提供什么灵感，也不期望能聊出太多结果，更多的是想通过这些沟通，看一下现在学生对这些问题的

2013-10-14 14:42:21 2367

原创 Collaborative Filtering根据近邻推荐时需要考虑的3要素

Collaborative Filtering根据近邻推荐时需要考虑的3要素可关注微博: weibo.com/dustinsea也可直接访问: http://semocean.com在使用类似于item-based 或user-based collaborative filtering构建推荐策略时，会涉及以下3个因素：训练数据的

2013-10-14 14:38:30 1001

原创协同过滤中item-based与user-based选择依据

协同过滤中item-based与user-based选择依据也可关注我的微博： weibo.com/dustinsea或是直接访问： http://semocean.com协同过滤是大家熟知的推荐算法。总的来说协同过滤又可以分为以下两大类：Neighborhood-based：计算相似item 或user后进行推荐Model-based：直接训

2013-10-14 14:32:20 1845

原创 google的商业产品之路

google的商业产品之路也可关注我的微博： weibo.com/dustinsea或是直接访问： http://semocean.com之前公司从google总部招了一个经验非常丰富的PM。入职后就请他给大家为大家布道google的商业产品推进的方法。听了之后感触颇多，在此与记录并与大家分享(因为自己也是学习别人在google的经验，当中会加上一些自己工作

2013-10-14 14:28:22 1040

原创推荐系统中的相似度度量

推荐系统中的相似度度量也可关注我的微博： weibo.com/dustinsea或直接访问 semocean.com相似度计算是数据挖掘，推荐引擎中的最基本问题，例如在推荐系统(Recommender Systems，简称RSs)中计算带推荐物品(Item)相似度，或是用户(User)之间的相似度以期获得兴趣口味(Taste)相似的用户时，均需要使用到相似

2013-10-14 14:23:46 4211

dustinsea的专栏

原创 epoll机制在搜索引擎spider中的应用

原创关键词推荐工具中的用户引导机制之四：种子query推荐

原创关键词推荐工具中的用户引导机制之三：相关搜索query技术

原创关键词推荐工具中的用户引导机制之二：suggestion架构

原创如何与理智的对手沟通谈判

原创 <帝范>-审官

原创 <帝范>读后感

原创关键词推荐工具中的用户引导机制

原创搜索引擎点击日志聚类实现相关搜索

原创经典聚类算法及在互联网的应用

原创 adaboost

原创分类模型在关键词推荐系统中的应用

原创使用impurity选择树模型拆分节点

原创选择推荐算法时需要考虑得因素

原创使用NDCG评估关键词推荐系统的相关性

原创使用NDCG评估关键词推荐系统的相关性

原创关键词推荐系统架构

原创 PageRank的经济学效用解释

原创特定场景的Cralwer

原创 google youtube 电影推荐算法

原创 Collaborative Filtering根据近邻推荐时需要考虑的3要素

原创协同过滤中item-based与user-based选择依据

原创 google的商业产品之路

原创推荐系统中的相似度度量

空空如也

空空如也