- 博客(9)
- 资源 (5)
- 收藏
- 关注
原创 Query Recommendation using Query Log in Search Engines
背景:论文作者是Ricardo baeza-Yates,此人是率先研究关键词推荐的人物之一。当时还在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。Ricardo baeza的主页:http://www.dcc.uchile.cl/~rba
2012-03-31 20:02:40 1277
原创 《The query-flow graph: model and applications》
Query graphs:Baeza-Yates 指出有5种不同类型的图。在所有的方法中,结点是query;边被引入两个结点间。word graph:两个query有共同的termsession graph:同一个session内的query。url conver graph:用户点击了搜索结果中的相同的url。url link graph:两个被点击的url直接有边
2012-03-31 09:07:14 1453
原创 内容发现产品
目前网络的内容越来越多,用户面临的是海量的信息,而用户对信息不熟悉的情况下,要找到优质的内容是非常困难的。目前有很多互联网产品关注优质内容的组织和展示。更进一步通过推荐算法,为不同的用户推荐不同的内容。如蘑菇街、一淘发现、新浪发现、淘宝爱逛街等等。不过这种应用非常消耗流量,如果通过算法,在尽可能少的展现次数,为用户提供需要内容,可以减少一些流量的消耗。第一个问题是如何自动获取优质的内容。简单的
2012-03-29 19:17:29 962
原创 Random Walks on the Click Graph
这是一篇微软剑桥研究院的文章。在搜索引擎领域,有几大公司和研究院产出了大量论文。论文最多的是“yahoo ! research”,其次可能就是 mircosoft Research和google research。在国内,搜狗实验室靠近清华,因此有大量的清华学生也写了很多论文。以此对比的是,百度、qq、阿里却很少产出相应的论文。或者是他们的论文,我没有读到吧。 基于有向图
2012-03-29 09:40:07 3144
原创 hadoop的两表join
以前我们做hadoop join的时候,总是在每个数据的表头增加一个tag,然后在reduce中根据tag来区别。 实际上,我们可以节省这种tag,只需要使用multipleInput,就可以分别处理不同的输入路径。 而在reduce端,我们不需要读入一个key下面所有的数据,然后再做join。 http://www.gemini5201314
2012-03-27 09:23:03 817
原创 中文推荐相关论文阅读笔记
《个性化推荐服务中用户兴趣模型研究》这完全是一个空想的论文。主要是要获取用户的兴趣分类。用户兴趣包括用户浏览的网页,以及对每个网页的兴趣度。基本上就是:对网页的兴趣做聚类。用户的浏览时间和下拉框点击次数,要统计比较难。 2.《基于大规模日志分析的网络搜索引擎用户行为研究》 搜狗的搜索引擎查询日志作为基础。统计query的各种数据。query
2012-03-26 15:11:05 766
原创 震惊!-- CSDN对推荐系统算法的漠视
互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前googl
2012-03-15 20:00:09 1337 4
原创 对项目质量的无止境追求---读《微软的秘密》有感
2010年在成都三官堂买的《微软的秘密》,这两年陆陆续续看了几次。如同《走出软件作坊》的作者阿朱说的一样,每看一次都有一些感想。这本书写的是微软90年代及其之前的开发经验,但是对我们当前的开发来说,仍然有很多值得汲取的经验。当今各种敏捷、scrum开发方法大行其道,可从本质上来说,也是对软件工程管理的改进,希望能够及时、快速的交付更好的软件产品。 书中多次谈到如何决定产品的
2012-03-13 09:42:18 1068
原创 搜索引擎算法之查询(Query)
1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分词算法,...
2012-03-13 08:45:53 9627 2
logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换
2023-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人