互联网
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
内容发现产品
目前网络的内容越来越多,用户面临的是海量的信息,而用户对信息不熟悉的情况下,要找到优质的内容是非常困难的。目前有很多互联网产品关注优质内容的组织和展示。更进一步通过推荐算法,为不同的用户推荐不同的内容。如蘑菇街、一淘发现、新浪发现、淘宝爱逛街等等。不过这种应用非常消耗流量,如果通过算法,在尽可能少的展现次数,为用户提供需要内容,可以减少一些流量的消耗。第一个问题是如何自动获取优质的内容。简单的原创 2012-03-29 19:17:29 · 970 阅读 · 0 评论 -
推荐的三个阶段
茹立云:推荐未来的价值要比搜索引擎大。推荐的三个阶段:1:用户兴趣2:实时的推荐3:SNS的推荐原创 2012-05-02 19:19:15 · 1286 阅读 · 0 评论 -
《Agglomerative clustering of a search engine query log》阅读笔记
作者介绍:Doug Beeferman研究query聚类的先驱。论文引用数量叹为观止啊。Agglomerative clustering of a search engine query log (Citations: 289)他是lycos搜索引擎公司的研究员。一个古老的搜索引擎 http://www.se-express.com/about/lycos.ht原创 2012-04-13 21:48:49 · 1505 阅读 · 0 评论 -
推荐系统数据稀疏性问题
对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每分钟出售4.8万件商品。假如我们要做User-Item的协同过滤算法,那么U-I矩阵大小是6000万 ×8亿。在这个数量级上面做协同过滤,即使用hadoop,计算起来也非常吃力,效果也比较差。让我们看看为什...原创 2012-05-03 09:16:54 · 30398 阅读 · 0 评论 -
《基于Web访问信息的用户兴趣迁移模式的研究》笔记
基本思想: 把用户访问过的页面作为序列。 每个页面可以有一个或者多个类别。 把访问过的页面序列,用HMM来标注类别。 目的就是识别用户访问的类目序列。 训练数据的获取方法? 通过局域网抓包的方式来得到用户访问的页面序列。这个方式比较巧妙,真是“创造条件也要上。” 不过这个方法在局域网只得到712个浏览页面,分析之后用到其中302个原创 2012-04-20 21:19:26 · 932 阅读 · 0 评论 -
基于概率传导和热传导的推荐算法R语言代码
本代码是论文《solving the apparent diversity-accuracy dilemma of recommender systems》的R语言模拟算法针对论文中的图1# user-object matrixv=c(1,0,0,1,0, 1,1,1,1,0, 1,0,1,0,0, 0,0,1,0,1)user=4ob=5am=ma原创 2012-04-17 16:13:46 · 2515 阅读 · 1 评论 -
《统计学习方法》阅读笔记
这本书一共235页,写了10个算法,可见每个算法都介绍的篇幅不长,貌似每个算法该讲的都讲了。详细看了一章最大熵,发现其实都是对已有文献的翻译,其中的部分符号修改了,更加通俗易读。不过翻译的非常好,是目前国内翻译的最好的吧。 最大熵的举例来自论文《A Maximum Entropy Approach to Natural Language Processing原创 2012-04-24 09:51:12 · 3346 阅读 · 3 评论 -
推荐系统
IBM-淘宝-袁泉http://www.cnblogs.com/wentingtu/category/342977.html数据挖掘http://www.cnblogs.com/wentingtu/archive/2012/03/13/2394022.html原创 2012-06-04 13:23:30 · 1151 阅读 · 0 评论 -
《Item-to-Item Collaborative Filtering》笔记
摘要:购买或者打分行为为工程师线上编程标题为妈妈线上婴儿玩具click-through andconversion rates点击率、转化率banneradvertisements:品牌广告top-sellerlists:销售排行榜电子商务推荐的挑战:(1)千万用户、百万商品(2)许多需要实时的推荐(3)新用户冷启动问题(4)老用户兴趣太原创 2012-06-08 09:24:24 · 6137 阅读 · 0 评论 -
机器学习中的最优化问题
机器学习中的大多数问题可以归结为最优化问题。把一些典型的问题用最优化的方法建立数学模型,再最优化的方式求解。我们再看看数据挖掘和机器学习中哪些是最优化问题,哪些不是。名称是否最优化其他关联规则否支持度和置信度;其实就是联合概率p(x,y)和条件概率p(y|x)。典型的创造概念,但是没有新的东西决策树否取信息增益大的原创 2012-11-18 11:39:10 · 9336 阅读 · 0 评论 -
推荐系统和非搜索广告的差异
主体: 广告:广告主、媒介、受众。三方博弈的结果。个人认为不是共赢关系。例如某些算法会加强广告主之间的竞争,提高PPC(点击价格)。三方博弈的结果是,算法比较复杂。需要一套完整的广告主竞价投放、预估、报表系统。 推荐系统:卖家,受众,都受益。推荐平台不盈利,主要是提高整体的用户体验。对卖家来说是一个黑盒。如何匹配商品?原创 2013-01-04 17:12:49 · 2809 阅读 · 0 评论 -
twiiter 推荐《WTF: The Who to Follow Service at Twitter》
《WTF: The Who to Follow Service at Twitter》文中介绍的是一个初始版本。第一次提供用户推荐,要求是质量可以,但是上线要快。因此他们搞了一个单机版本。内存很大,144G ram,至今没有用过这么大内存的机器。数据规模:照例讲了一个长尾分布,少数人有1000万follower,25个人有100万的follower。介绍了一下 用不用h原创 2013-06-11 23:24:20 · 2566 阅读 · 0 评论 -
【笔记】GraphLab机器学习平台介绍
一个机器学习平台,主要是图模型方面的计算。第一个Demo就是计算PageRank 。还提供包括求解线性方程组,协同过滤、聚类等等操作。GraphLab linear solvers libraryThis application solves a linear system of equations using iterative solvers:原创 2012-05-02 13:09:50 · 4353 阅读 · 2 评论 -
Query Rewrite 相关机器学习人物谱
neel sundaresanhttp://labs.ebay.com/neelsundaresan/neel sundaresan是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzy search and network CRM的联合创始人。论文原创 2012-04-13 21:49:54 · 2703 阅读 · 0 评论 -
《People Searching for People Anasysis of a People Search Engine Log》
有很多人名搜索,包括各种垂直搜索,科技文献、医学搜索、书籍搜索(joyo.COM)、weibo搜索等等。即使在通用搜索,也有很多关键词是搜索人名的,包括明星,企业家等等。11%-17%的web query包含人名。4%的web query 指是人名组成。不少于57%的用户搜索自己的名字。46%的人搜索别人的名字以便了解他们的历史。主要是了解他们的背景、作品、故事吧。翻译 2012-05-01 19:00:40 · 1100 阅读 · 0 评论 -
《The query-flow graph: model and applications》
Query graphs:Baeza-Yates 指出有5种不同类型的图。在所有的方法中,结点是query;边被引入两个结点间。word graph:两个query有共同的termsession graph:同一个session内的query。url conver graph:用户点击了搜索结果中的相同的url。url link graph:两个被点击的url直接有边原创 2012-03-31 09:07:14 · 1462 阅读 · 0 评论 -
Query Recommendation using Query Log in Search Engines
背景:论文作者是Ricardo baeza-Yates,此人是率先研究关键词推荐的人物之一。当时还在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。Ricardo baeza的主页:http://www.dcc.uchile.cl/~rba原创 2012-03-31 20:02:40 · 1288 阅读 · 0 评论 -
Flickr Tag Recommendation based on Collective KnowLedge
背景Flickr是著名的图片存储应用提供商,被yahoo收购。这里的两个作者都是yahoo位于spain Barcelona研究院。Tag的对象都是缺少内容的。这里是对图片、用户和朋友、视频的标注。QQ、旺旺、开心网都有过对好友印象,这个或许是为了给用户做标注。不过给用户做标注容易太宽泛。同一张图片,不同的人标注的结果可能很不一样。论文结构原创 2012-04-02 20:03:12 · 616 阅读 · 0 评论 -
Keyword Generation for Search Engine Advertising
关键词推荐的方法: (1)meta tag spider: 通过抓取各种网站的meta数据,把这些mata数据综合在一起,做关键词推荐。 这种方法适合于没有日志的初始网站。 (2)google adwords tool (共同的广告点击): 通过 query log 挖掘关键词。当搜索关键词“A”出了广告x,那么其他关键词也能够出广告x,原创 2011-04-26 08:07:00 · 916 阅读 · 0 评论 -
Learning dense Models of Query Similarity from User Click Logs
背景:有大量的论文研究如何计算Query直接的相关性,而这篇论文是2010年的一篇。3名作者是Google Research 的成员。第一作者是Fabio de bona貌似是一个德国人。他还介绍了一种并行的SVMs训练方法。GPDT is a C++ software designed to train large-scale Support Vector Machines (SVMs)原创 2012-04-04 13:08:24 · 571 阅读 · 0 评论 -
c2c产品搜索的点击预测
背景:《Click Prediction for Product Search on C2C web sites 》上海交大的计算机系的论文。论文说数据来自 “a real popular c2c web site”,看论文图片,应该是ebay.com的图片。ebay在上海有研究所吗? 论文上图片是搜索“nokia e63”,有兴趣可以点击来看看。很奇怪的是,论文为什么不直接点明是ebay原创 2012-04-04 17:44:01 · 808 阅读 · 0 评论 -
相关算法资源
http://www.stanford.edu/class/msande239/ 斯坦福计算广告原创 2012-04-04 18:50:24 · 515 阅读 · 0 评论 -
推荐系统 机器学习的blog
http://somemory.com/myblog/ http://xlvector.net/blog/原创 2012-04-04 18:52:07 · 801 阅读 · 0 评论 -
【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion
背景:这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念原创 2012-04-05 11:46:23 · 1182 阅读 · 0 评论 -
《针对长尾的推荐系统》笔记
背景:作者是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzysearch and network CRM的联合创始人。摘要:推荐系统组成电子商务网站的核心。在这篇论文中,我们对推荐系统采用一种自上而下的观点,明确挑战和机遇,明确建立电子商务平台的原创 2012-04-10 08:47:00 · 3340 阅读 · 1 评论 -
hadoop map数量太少的问题
某些时候map的数量太少,但是每个map的文件比较大,导致执行时间很长。为了充分利用hadoop的优势,我们把map的数据hash到更多的reduce节点去做处理。使用随机数据都不是特别好,更好的方式是使用input line的hashCode。public void map(LongWritable key, Text value,OutputCollector outpu原创 2012-04-11 09:42:16 · 1837 阅读 · 0 评论 -
用R语言计算信息熵
test.entropy print(d)res for(i in 1:length(d)){ if(d[i]!=0) res }return (-res)}d1=c(0.25,0.25,0.25,0.25)d2=c(0.5,0.5,0,0)d3=c(0.8,0.2,0,0)d4=c(1,0,0,0)pri原创 2012-04-10 20:36:21 · 13871 阅读 · 1 评论 -
《针对长尾Query合成高可用的推荐词》
作者Alpa Jainyahoo研究院数据挖掘少有的女人。关键词推荐和补全有不少的研究,简直是这方面yahoo最新的接班人。背景:对于Top Query大家已经分析了很多了,现在更多的是研究长尾Query的关键词推荐方法。一种Query中不重要词的识别非常重要。作者提出一种非常好的识别方法,其过程有一点类似拼写纠错。如果用户输入q1,但是没有点击。接着输原创 2012-04-15 09:33:06 · 2868 阅读 · 0 评论 -
数据挖掘书籍
Web数据挖掘http://book.douban.com/subject/3639345/集体智慧编程http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。原创 2012-04-18 18:31:21 · 892 阅读 · 0 评论 -
开源报表工具 Metabase 使用技巧-日期筛选实例
很多公司都有大量的数据,要把这些数据做出报表无疑需要大量的时间。虽然有EChart之类的图表工具,无奈开发成本还是太高。 用BDP、Tableau 之类的软件,需要花钱买账号不说,数据安全也不好保证。因此一个开源的数据报表工具就显得非常重要。目前我们开始使用MetaBase这样的工具。 Metabase为什么好用呢?我们看中了它的几大原因。 1、可...原创 2018-06-26 19:51:17 · 13151 阅读 · 7 评论