自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据挖掘爱好者

关注搜索、推荐相关算法

  • 博客(9)
  • 资源 (5)
  • 收藏
  • 关注

原创 Query Recommendation using Query Log in Search Engines

背景:论文作者是Ricardo baeza-Yates,此人是率先研究关键词推荐的人物之一。当时还在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。Ricardo baeza的主页:http://www.dcc.uchile.cl/~rba

2012-03-31 20:02:40 1277

原创 《The query-flow graph: model and applications》

Query graphs:Baeza-Yates 指出有5种不同类型的图。在所有的方法中,结点是query;边被引入两个结点间。word graph:两个query有共同的termsession graph:同一个session内的query。url conver graph:用户点击了搜索结果中的相同的url。url link graph:两个被点击的url直接有边

2012-03-31 09:07:14 1453

原创 内容发现产品

目前网络的内容越来越多,用户面临的是海量的信息,而用户对信息不熟悉的情况下,要找到优质的内容是非常困难的。目前有很多互联网产品关注优质内容的组织和展示。更进一步通过推荐算法,为不同的用户推荐不同的内容。如蘑菇街、一淘发现、新浪发现、淘宝爱逛街等等。不过这种应用非常消耗流量,如果通过算法,在尽可能少的展现次数,为用户提供需要内容,可以减少一些流量的消耗。第一个问题是如何自动获取优质的内容。简单的

2012-03-29 19:17:29 962

原创 Random Walks on the Click Graph

这是一篇微软剑桥研究院的文章。在搜索引擎领域,有几大公司和研究院产出了大量论文。论文最多的是“yahoo ! research”,其次可能就是 mircosoft Research和google research。在国内,搜狗实验室靠近清华,因此有大量的清华学生也写了很多论文。以此对比的是,百度、qq、阿里却很少产出相应的论文。或者是他们的论文,我没有读到吧。        基于有向图

2012-03-29 09:40:07 3144

原创 hadoop的两表join

以前我们做hadoop join的时候,总是在每个数据的表头增加一个tag,然后在reduce中根据tag来区别。        实际上,我们可以节省这种tag,只需要使用multipleInput,就可以分别处理不同的输入路径。        而在reduce端,我们不需要读入一个key下面所有的数据,然后再做join。        http://www.gemini5201314

2012-03-27 09:23:03 817

原创 中文推荐相关论文阅读笔记

《个性化推荐服务中用户兴趣模型研究》这完全是一个空想的论文。主要是要获取用户的兴趣分类。用户兴趣包括用户浏览的网页,以及对每个网页的兴趣度。基本上就是:对网页的兴趣做聚类。用户的浏览时间和下拉框点击次数,要统计比较难。   2.《基于大规模日志分析的网络搜索引擎用户行为研究》 搜狗的搜索引擎查询日志作为基础。统计query的各种数据。query

2012-03-26 15:11:05 766

原创 震惊!-- CSDN对推荐系统算法的漠视

互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。              广告对应互联网企业来说是非常重要的。当前googl

2012-03-15 20:00:09 1337 4

原创 对项目质量的无止境追求---读《微软的秘密》有感

2010年在成都三官堂买的《微软的秘密》,这两年陆陆续续看了几次。如同《走出软件作坊》的作者阿朱说的一样,每看一次都有一些感想。这本书写的是微软90年代及其之前的开发经验,但是对我们当前的开发来说,仍然有很多值得汲取的经验。当今各种敏捷、scrum开发方法大行其道,可从本质上来说,也是对软件工程管理的改进,希望能够及时、快速的交付更好的软件产品。         书中多次谈到如何决定产品的

2012-03-13 09:42:18 1068

原创 搜索引擎算法之查询(Query)

1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分词算法,...

2012-03-13 08:45:53 9627 2

logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换

1.打开Chrome左上角三个点按钮 -> 更多工具 -> 扩展程序 2.打开右上角的开发者模式,点击加载已解压缩的扩展程序,导入上述文件夹 3. 找到插件,将其锁定在工具栏 4.把logview 里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容,copy到这个插件里面的左侧即可使用了。

2023-09-15

出价公式推导 1705.09416.pdf

Optimal Real-Time Bidding for Display Advertising

2021-05-28

数字ip转ip v4的工具

数字ip转ip v4的excel工具,数字ip转ip v4的excel工具

2018-02-02

RTL8188C_8192C_USB_linux_v4.0.2_9000.20130911

无线网卡驱动 rtl 8188 网卡

2017-05-20

速卖通标题优化技巧

速卖通标题优化各种功能: 标题诊断 热词分析 宝贝找词 标题优化 海量直通车关键词

2015-11-19

张乐博士的最大熵手册

张乐博士的最大熵手册 张乐博士的最大熵手册 张乐博士的最大熵手册

2011-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除