论文
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
Query Recommendation using Query Log in Search Engines
背景:论文作者是Ricardo baeza-Yates,此人是率先研究关键词推荐的人物之一。当时还在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。Ricardo baeza的主页:http://www.dcc.uchile.cl/~rba原创 2012-03-31 20:02:40 · 1288 阅读 · 0 评论 -
《HT06,Tagging Papper, Taxonomy,Flickr,Academic Article,ToRead》
我们现在已经有很多标签系统,例如有道书签,豆瓣书籍,Del.icio.us,Flickr,YouTube,Last.fm等等。社会化书签,允许大家对URL分类 、添加标签。有了这些标签,可以用来做网页分类,个性化推荐等等。Tagging的问题:词库问题:对于同一个事物,不同的用户会用不同的词来描述。这个可以用于挖掘近义词或者相关词?tag标签图:图包括资源,tag,翻译 2012-05-01 16:40:33 · 1692 阅读 · 0 评论 -
《People Searching for People Anasysis of a People Search Engine Log》
有很多人名搜索,包括各种垂直搜索,科技文献、医学搜索、书籍搜索(joyo.COM)、weibo搜索等等。即使在通用搜索,也有很多关键词是搜索人名的,包括明星,企业家等等。11%-17%的web query包含人名。4%的web query 指是人名组成。不少于57%的用户搜索自己的名字。46%的人搜索别人的名字以便了解他们的历史。主要是了解他们的背景、作品、故事吧。翻译 2012-05-01 19:00:40 · 1100 阅读 · 0 评论 -
《Agglomerative clustering of a search engine query log》阅读笔记
作者介绍:Doug Beeferman研究query聚类的先驱。论文引用数量叹为观止啊。Agglomerative clustering of a search engine query log (Citations: 289)他是lycos搜索引擎公司的研究员。一个古老的搜索引擎 http://www.se-express.com/about/lycos.ht原创 2012-04-13 21:48:49 · 1505 阅读 · 0 评论 -
《基于Web访问信息的用户兴趣迁移模式的研究》笔记
基本思想: 把用户访问过的页面作为序列。 每个页面可以有一个或者多个类别。 把访问过的页面序列,用HMM来标注类别。 目的就是识别用户访问的类目序列。 训练数据的获取方法? 通过局域网抓包的方式来得到用户访问的页面序列。这个方式比较巧妙,真是“创造条件也要上。” 不过这个方法在局域网只得到712个浏览页面,分析之后用到其中302个原创 2012-04-20 21:19:26 · 932 阅读 · 0 评论 -
基于概率传导和热传导的推荐算法R语言代码
本代码是论文《solving the apparent diversity-accuracy dilemma of recommender systems》的R语言模拟算法针对论文中的图1# user-object matrixv=c(1,0,0,1,0, 1,1,1,1,0, 1,0,1,0,0, 0,0,1,0,1)user=4ob=5am=ma原创 2012-04-17 16:13:46 · 2515 阅读 · 1 评论 -
《 Scaling Up All Pairs Similarity Search》
ScalingUp All Pairs Similarity Search扩展所有pair的相似性搜索。摘要:给定一个高维稀疏向量集合,我们研究找出所有pair的相似性分数(例如定义为余弦分数)的问题,并在这些pair高于给定阈值。我们提出一个简单算法:基于一种新颖的索引和优化策略,不需要近似算法和参数调优来解决这个问题。我们展示这种方法能够有效的处理多种数据集合,通过广泛调整相似性分翻译 2012-05-13 13:06:30 · 2169 阅读 · 0 评论 -
《OpinionMining and Sentiment Analysis》
观点挖掘和语言挖掘Yahoo研究院 信息收集行为的重要部分是找出其他人在思考什么。富有观点的资源(如在线review网站、个人博客)越来越多、越来越流行,新的观点和挑战被激发,人们可能并且可以,积极利用信息技术去寻找和理解别人的观点。意见挖掘和情感分析领域的研究活动的突然爆发,涉及观点、情感、主观性文本的计算处理,部分表现为新系统中对兴趣的处理。 这个综述覆盖了面向观点的信翻译 2012-05-13 11:25:06 · 1701 阅读 · 0 评论 -
【笔记】GraphLab机器学习平台介绍
一个机器学习平台,主要是图模型方面的计算。第一个Demo就是计算PageRank 。还提供包括求解线性方程组,协同过滤、聚类等等操作。GraphLab linear solvers libraryThis application solves a linear system of equations using iterative solvers:原创 2012-05-02 13:09:50 · 4353 阅读 · 2 评论 -
最大熵 IIS算法中的一个证明和图
参考《The Improved Iterative Scaling Algorithm:A Gentle Introduction》其中一个公式:当 x>0时, -log(x) >= 1-x 成立。证明:x-log(x)-1>=0令x=1+z,z>-1;得到:1-x=z由于:ln(1+z)=z-z^2/2+z^3/3-z^4/4..... 因此: -原创 2012-04-25 19:40:49 · 3172 阅读 · 0 评论 -
tagging笔记
tag可以标注在users,photos,articles,bookmarks,products,blog entries等等。用term 向量可以表示metadata,每一个term或者tag都是向量中的一维。向量中所有的term集合就是词表。user 和item都用tag来表示,那么就可以计算user和item之间的相关性。可以使用BM25算法?使用tag可以对user之间做关原创 2012-04-01 08:45:54 · 843 阅读 · 0 评论 -
Flickr Tag Recommendation based on Collective KnowLedge
背景Flickr是著名的图片存储应用提供商,被yahoo收购。这里的两个作者都是yahoo位于spain Barcelona研究院。Tag的对象都是缺少内容的。这里是对图片、用户和朋友、视频的标注。QQ、旺旺、开心网都有过对好友印象,这个或许是为了给用户做标注。不过给用户做标注容易太宽泛。同一张图片,不同的人标注的结果可能很不一样。论文结构原创 2012-04-02 20:03:12 · 616 阅读 · 0 评论 -
Keyword Generation for Search Engine Advertising
关键词推荐的方法: (1)meta tag spider: 通过抓取各种网站的meta数据,把这些mata数据综合在一起,做关键词推荐。 这种方法适合于没有日志的初始网站。 (2)google adwords tool (共同的广告点击): 通过 query log 挖掘关键词。当搜索关键词“A”出了广告x,那么其他关键词也能够出广告x,原创 2011-04-26 08:07:00 · 916 阅读 · 0 评论 -
Learning dense Models of Query Similarity from User Click Logs
背景:有大量的论文研究如何计算Query直接的相关性,而这篇论文是2010年的一篇。3名作者是Google Research 的成员。第一作者是Fabio de bona貌似是一个德国人。他还介绍了一种并行的SVMs训练方法。GPDT is a C++ software designed to train large-scale Support Vector Machines (SVMs)原创 2012-04-04 13:08:24 · 571 阅读 · 0 评论 -
c2c产品搜索的点击预测
背景:《Click Prediction for Product Search on C2C web sites 》上海交大的计算机系的论文。论文说数据来自 “a real popular c2c web site”,看论文图片,应该是ebay.com的图片。ebay在上海有研究所吗? 论文上图片是搜索“nokia e63”,有兴趣可以点击来看看。很奇怪的是,论文为什么不直接点明是ebay原创 2012-04-04 17:44:01 · 808 阅读 · 0 评论 -
【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion
背景:这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念原创 2012-04-05 11:46:23 · 1182 阅读 · 0 评论 -
《针对长尾的推荐系统》笔记
背景:作者是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzysearch and network CRM的联合创始人。摘要:推荐系统组成电子商务网站的核心。在这篇论文中,我们对推荐系统采用一种自上而下的观点,明确挑战和机遇,明确建立电子商务平台的原创 2012-04-10 08:47:00 · 3340 阅读 · 1 评论 -
用R语言计算信息熵
test.entropy print(d)res for(i in 1:length(d)){ if(d[i]!=0) res }return (-res)}d1=c(0.25,0.25,0.25,0.25)d2=c(0.5,0.5,0,0)d3=c(0.8,0.2,0,0)d4=c(1,0,0,0)pri原创 2012-04-10 20:36:21 · 13871 阅读 · 1 评论 -
《针对长尾Query合成高可用的推荐词》
作者Alpa Jainyahoo研究院数据挖掘少有的女人。关键词推荐和补全有不少的研究,简直是这方面yahoo最新的接班人。背景:对于Top Query大家已经分析了很多了,现在更多的是研究长尾Query的关键词推荐方法。一种Query中不重要词的识别非常重要。作者提出一种非常好的识别方法,其过程有一点类似拼写纠错。如果用户输入q1,但是没有点击。接着输原创 2012-04-15 09:33:06 · 2868 阅读 · 0 评论 -
Query Rewrite 相关机器学习人物谱
neel sundaresanhttp://labs.ebay.com/neelsundaresan/neel sundaresan是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzy search and network CRM的联合创始人。论文原创 2012-04-13 21:49:54 · 2703 阅读 · 0 评论