自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据挖掘爱好者

关注搜索、推荐相关算法

  • 博客(19)
  • 资源 (5)
  • 收藏
  • 关注

原创 最大熵,三硬币模型的R语言代码

#最大熵算法#《 统计学习方法》最大熵,三硬币模型的R语言代码   有3个硬币,分布为A、B、C,硬币正面的概率是pai,p,q。投币实验如下,先投A,如果A是正面,即A=1,那么选择投B;A=0,投C。  最后,如果B或者C是正面,那么y=1;是反面,那么y=0;  投n次,n=0,结果序列是 :1,1,0,1,0,0,1,0,1,1Θ是向量pai,p,q。

2012-04-28 09:35:59 3433

原创 最大熵 IIS算法中的一个证明和图

参考《The Improved Iterative Scaling Algorithm:A Gentle Introduction》其中一个公式:当 x>0时, -log(x) >= 1-x 成立。证明:x-log(x)-1>=0令x=1+z,z>-1;得到:1-x=z由于:ln(1+z)=z-z^2/2+z^3/3-z^4/4..... 因此: -

2012-04-25 19:40:49 3138

原创 《统计学习方法》阅读笔记

这本书一共235页,写了10个算法,可见每个算法都介绍的篇幅不长,貌似每个算法该讲的都讲了。详细看了一章最大熵,发现其实都是对已有文献的翻译,其中的部分符号修改了,更加通俗易读。不过翻译的非常好,是目前国内翻译的最好的吧。                 最大熵的举例来自论文《A Maximum Entropy Approach to Natural Language Processing

2012-04-24 09:51:12 3326 3

原创 《基于Web访问信息的用户兴趣迁移模式的研究》笔记

基本思想:  把用户访问过的页面作为序列。  每个页面可以有一个或者多个类别。  把访问过的页面序列,用HMM来标注类别。 目的就是识别用户访问的类目序列。  训练数据的获取方法?      通过局域网抓包的方式来得到用户访问的页面序列。这个方式比较巧妙,真是“创造条件也要上。”      不过这个方法在局域网只得到712个浏览页面,分析之后用到其中302个

2012-04-20 21:19:26 907

原创 数据挖掘书籍

Web数据挖掘http://book.douban.com/subject/3639345/集体智慧编程http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。

2012-04-18 18:31:21 875

原创 基于概率传导和热传导的推荐算法R语言代码

本代码是论文《solving the apparent diversity-accuracy dilemma of recommender systems》的R语言模拟算法针对论文中的图1# user-object matrixv=c(1,0,0,1,0, 1,1,1,1,0, 1,0,1,0,0, 0,0,1,0,1)user=4ob=5am=ma

2012-04-17 16:13:46 2479 1

原创 《针对长尾Query合成高可用的推荐词》

作者Alpa Jainyahoo研究院数据挖掘少有的女人。关键词推荐和补全有不少的研究,简直是这方面yahoo最新的接班人。背景:对于Top Query大家已经分析了很多了,现在更多的是研究长尾Query的关键词推荐方法。一种Query中不重要词的识别非常重要。作者提出一种非常好的识别方法,其过程有一点类似拼写纠错。如果用户输入q1,但是没有点击。接着输

2012-04-15 09:33:06 2825

原创 Query Rewrite 相关机器学习人物谱

neel sundaresanhttp://labs.ebay.com/neelsundaresan/neel sundaresan是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzy search and network CRM的联合创始人。论文

2012-04-13 21:49:54 2678

原创 《Agglomerative clustering of a search engine query log》阅读笔记

作者介绍:Doug Beeferman研究query聚类的先驱。论文引用数量叹为观止啊。Agglomerative clustering of a search engine query log   (Citations: 289)他是lycos搜索引擎公司的研究员。一个古老的搜索引擎 http://www.se-express.com/about/lycos.ht

2012-04-13 21:48:49 1474

原创 hadoop map数量太少的问题

某些时候map的数量太少,但是每个map的文件比较大,导致执行时间很长。为了充分利用hadoop的优势,我们把map的数据hash到更多的reduce节点去做处理。使用随机数据都不是特别好,更好的方式是使用input line的hashCode。public void map(LongWritable key, Text value,OutputCollector outpu

2012-04-11 09:42:16 1808

原创 用R语言计算信息熵

test.entropy print(d)res for(i in 1:length(d)){  if(d[i]!=0)        res     }return (-res)}d1=c(0.25,0.25,0.25,0.25)d2=c(0.5,0.5,0,0)d3=c(0.8,0.2,0,0)d4=c(1,0,0,0)pri

2012-04-10 20:36:21 13763 1

原创 《针对长尾的推荐系统》笔记

背景:作者是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzysearch and network CRM的联合创始人。摘要:推荐系统组成电子商务网站的核心。在这篇论文中,我们对推荐系统采用一种自上而下的观点,明确挑战和机遇,明确建立电子商务平台的

2012-04-10 08:47:00 3295 1

原创 【阅读笔记】Mining Concept Sequence from Large-Scale Search Logs for Context-Aware Query Suggestion

背景:这是微软研究院的一篇论文。第一作者是南开大学 Liao Zhen ,主页是http://kdd.nankai.edu.cn/showMemberAction.do?tp=0&&id=80。这篇论文的目的是Query推荐,也就是关键词推荐。在搜索引擎、广告竞价平台中,关键词推荐已经是标配的产品。同样是搜索引个词,不同的人有不同的意图。这是为什么呢?原因是一个词可能对应到多个概念

2012-04-05 11:46:23 1166

原创 推荐系统 机器学习的blog

http://somemory.com/myblog/ http://xlvector.net/blog/

2012-04-04 18:52:07 779

原创 相关算法资源

http://www.stanford.edu/class/msande239/  斯坦福计算广告

2012-04-04 18:50:24 495

原创 c2c产品搜索的点击预测

背景:《Click Prediction for Product Search on C2C web sites 》上海交大的计算机系的论文。论文说数据来自 “a real popular c2c web site”,看论文图片,应该是ebay.com的图片。ebay在上海有研究所吗? 论文上图片是搜索“nokia e63”,有兴趣可以点击来看看。很奇怪的是,论文为什么不直接点明是ebay

2012-04-04 17:44:01 786

原创 Learning dense Models of Query Similarity from User Click Logs

背景:有大量的论文研究如何计算Query直接的相关性,而这篇论文是2010年的一篇。3名作者是Google Research 的成员。第一作者是Fabio de bona貌似是一个德国人。他还介绍了一种并行的SVMs训练方法。GPDT is a C++ software designed to train large-scale Support Vector Machines (SVMs)

2012-04-04 13:08:24 550

原创 Flickr Tag Recommendation based on Collective KnowLedge

背景Flickr是著名的图片存储应用提供商,被yahoo收购。这里的两个作者都是yahoo位于spain Barcelona研究院。Tag的对象都是缺少内容的。这里是对图片、用户和朋友、视频的标注。QQ、旺旺、开心网都有过对好友印象,这个或许是为了给用户做标注。不过给用户做标注容易太宽泛。同一张图片,不同的人标注的结果可能很不一样。论文结构

2012-04-02 20:03:12 592

原创 tagging笔记

tag可以标注在users,photos,articles,bookmarks,products,blog entries等等。用term 向量可以表示metadata,每一个term或者tag都是向量中的一维。向量中所有的term集合就是词表。user 和item都用tag来表示,那么就可以计算user和item之间的相关性。可以使用BM25算法?使用tag可以对user之间做关

2012-04-01 08:45:54 819

logview里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容的json格式转换

1.打开Chrome左上角三个点按钮 -> 更多工具 -> 扩展程序 2.打开右上角的开发者模式,点击加载已解压缩的扩展程序,导入上述文件夹 3. 找到插件,将其锁定在工具栏 4.把logview 里面SourceXML页面,找到 <TaskPlan> </TaskPlan>里面的内容,copy到这个插件里面的左侧即可使用了。

2023-09-15

出价公式推导 1705.09416.pdf

Optimal Real-Time Bidding for Display Advertising

2021-05-28

数字ip转ip v4的工具

数字ip转ip v4的excel工具,数字ip转ip v4的excel工具

2018-02-02

RTL8188C_8192C_USB_linux_v4.0.2_9000.20130911

无线网卡驱动 rtl 8188 网卡

2017-05-20

速卖通标题优化技巧

速卖通标题优化各种功能: 标题诊断 热词分析 宝贝找词 标题优化 海量直通车关键词

2015-11-19

张乐博士的最大熵手册

张乐博士的最大熵手册 张乐博士的最大熵手册 张乐博士的最大熵手册

2011-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除