- 博客(19)
- 资源 (5)
- 收藏
- 关注
原创 最大熵,三硬币模型的R语言代码
#最大熵算法#《 统计学习方法》最大熵,三硬币模型的R语言代码 有3个硬币,分布为A、B、C,硬币正面的概率是pai,p,q。投币实验如下,先投A,如果A是正面,即A=1,那么选择投B;A=0,投C。 最后,如果B或者C是正面,那么y=1;是反面,那么y=0; 投n次,n=0,结果序列是 :1,1,0,1,0,0,1,0,1,1Θ是向量pai,p,q。
2012-04-28 09:35:59 3462
原创 最大熵 IIS算法中的一个证明和图
参考《The Improved Iterative Scaling Algorithm:A Gentle Introduction》其中一个公式:当 x>0时, -log(x) >= 1-x 成立。证明:x-log(x)-1>=0令x=1+z,z>-1;得到:1-x=z由于:ln(1+z)=z-z^2/2+z^3/3-z^4/4..... 因此: -
2012-04-25 19:40:49 3160
原创 《统计学习方法》阅读笔记
这本书一共235页,写了10个算法,可见每个算法都介绍的篇幅不长,貌似每个算法该讲的都讲了。详细看了一章最大熵,发现其实都是对已有文献的翻译,其中的部分符号修改了,更加通俗易读。不过翻译的非常好,是目前国内翻译的最好的吧。 最大熵的举例来自论文《A Maximum Entropy Approach to Natural Language Processing
2012-04-24 09:51:12 3334 3
原创 《基于Web访问信息的用户兴趣迁移模式的研究》笔记
基本思想: 把用户访问过的页面作为序列。 每个页面可以有一个或者多个类别。 把访问过的页面序列,用HMM来标注类别。 目的就是识别用户访问的类目序列。 训练数据的获取方法? 通过局域网抓包的方式来得到用户访问的页面序列。这个方式比较巧妙,真是“创造条件也要上。” 不过这个方法在局域网只得到712个浏览页面,分析之后用到其中302个
2012-04-20 21:19:26 920
原创 数据挖掘书籍
Web数据挖掘http://book.douban.com/subject/3639345/集体智慧编程http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。
2012-04-18 18:31:21 883
原创 基于概率传导和热传导的推荐算法R语言代码
本代码是论文《solving the apparent diversity-accuracy dilemma of recommender systems》的R语言模拟算法针对论文中的图1# user-object matrixv=c(1,0,0,1,0, 1,1,1,1,0, 1,0,1,0,0, 0,0,1,0,1)user=4ob=5am=ma
2012-04-17 16:13:46 2503 1
原创 《针对长尾Query合成高可用的推荐词》
作者Alpa Jainyahoo研究院数据挖掘少有的女人。关键词推荐和补全有不少的研究,简直是这方面yahoo最新的接班人。背景:对于Top Query大家已经分析了很多了,现在更多的是研究长尾Query的关键词推荐方法。一种Query中不重要词的识别非常重要。作者提出一种非常好的识别方法,其过程有一点类似拼写纠错。如果用户输入q1,但是没有点击。接着输
2012-04-15 09:33:06 2854
原创 Query Rewrite 相关机器学习人物谱
neel sundaresanhttp://labs.ebay.com/neelsundaresan/neel sundaresan是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzy search and network CRM的联合创始人。论文
2012-04-13 21:49:54 2694
原创 《Agglomerative clustering of a search engine query log》阅读笔记
作者介绍:Doug Beeferman研究query聚类的先驱。论文引用数量叹为观止啊。Agglomerative clustering of a search engine query log (Citations: 289)他是lycos搜索引擎公司的研究员。一个古老的搜索引擎 http://www.se-express.com/about/lycos.ht
2012-04-13 21:48:49 1496
原创 hadoop map数量太少的问题
某些时候map的数量太少,但是每个map的文件比较大,导致执行时间很长。为了充分利用hadoop的优势,我们把map的数据hash到更多的reduce节点去做处理。使用随机数据都不是特别好,更好的方式是使用input line的hashCode。public void map(LongWritable key, Text value,OutputCollector outpu
2012-04-11 09:42:16 1828
原创 用R语言计算信息熵
test.entropy print(d)res for(i in 1:length(d)){ if(d[i]!=0) res }return (-res)}d1=c(0.25,0.25,0.25,0.25)d2=c(0.5,0.5,0,0)d3=c(0.8,0.2,0,0)d4=c(1,0,0,0)pri
2012-04-10 20:36:21 13832 1
原创 《针对长尾的推荐系统》笔记
背景:作者是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzysearch and network CRM的联合创始人。摘要:推荐系统组成电子商务网站的核心。在这篇论文中,我们对推荐系统采用一种自上而下的观点,明确挑战和机遇,明确建立电子商务平台的
2012-04-10 08:47:00 3328 1
原创 【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion
背景:这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念
2012-04-05 11:46:23 1173
原创 c2c产品搜索的点击预测
背景:《Click Prediction for Product Search on C2C web sites 》上海交大的计算机系的论文。论文说数据来自 “a real popular c2c web site”,看论文图片,应该是ebay.com的图片。ebay在上海有研究所吗? 论文上图片是搜索“nokia e63”,有兴趣可以点击来看看。很奇怪的是,论文为什么不直接点明是ebay
2012-04-04 17:44:01 799
原创 Learning dense Models of Query Similarity from User Click Logs
背景:有大量的论文研究如何计算Query直接的相关性,而这篇论文是2010年的一篇。3名作者是Google Research 的成员。第一作者是Fabio de bona貌似是一个德国人。他还介绍了一种并行的SVMs训练方法。GPDT is a C++ software designed to train large-scale Support Vector Machines (SVMs)
2012-04-04 13:08:24 562
原创 Flickr Tag Recommendation based on Collective KnowLedge
背景Flickr是著名的图片存储应用提供商,被yahoo收购。这里的两个作者都是yahoo位于spain Barcelona研究院。Tag的对象都是缺少内容的。这里是对图片、用户和朋友、视频的标注。QQ、旺旺、开心网都有过对好友印象,这个或许是为了给用户做标注。不过给用户做标注容易太宽泛。同一张图片,不同的人标注的结果可能很不一样。论文结构
2012-04-02 20:03:12 603
原创 tagging笔记
tag可以标注在users,photos,articles,bookmarks,products,blog entries等等。用term 向量可以表示metadata,每一个term或者tag都是向量中的一维。向量中所有的term集合就是词表。user 和item都用tag来表示,那么就可以计算user和item之间的相关性。可以使用BM25算法?使用tag可以对user之间做关
2012-04-01 08:45:54 834
logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换
2023-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人