数据挖掘
文章平均质量分 63
inte_sleeper
这个作者很懒,什么都没留下…
展开
-
IR的评价指标—MAP,NDCG,MRR
转载自:http://www.cnblogs.com/eyeszjwang/articles/2368087.htmlMAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),转载 2012-03-27 12:39:39 · 16867 阅读 · 0 评论 -
mahout分类算法效果评估指标
mahout中有许多分类器,包括Naive Bayes, Complementary Naive Bayes, Stochastic Gradient Descent, Support Vector Machine, Random Forest等。评估一个分类器(模型)的好坏,需要有一些指标,而在mahout中提供了下列衡量指标:1. %-correct (ConfusionMatrix原创 2012-03-20 15:09:15 · 2308 阅读 · 1 评论 -
[论文笔记]amazon: item-to-item collaborative filtering
作者为amazon的Greg Linden, Brent Smith, and Jeremy York。内容概要:1. 传统的user-based协同过滤算法,复杂度为O(MN),其中M为用户数量,N为商品数量。由于大部分的用户购买都很稀疏,只有极少数用户可能购买了大量商品,因此复杂度可以简化至O(M+N)。然而这个算法受用户数和商品数影响较大,在大多数大型系统中较难应用。2. 基于聚原创 2012-04-11 11:17:54 · 2391 阅读 · 0 评论 -
[论文笔记]Item-based collaborative filtering recommendation algorithms
作者:Badrul Sarwar, George Karypi, Joseph Konstan, John Riedl内容概要1. 协同过滤: 目标:推荐TOP N item类别:memory-based, model-based。2. user-based的协同过滤的问题: a. 数据稀疏性 b.可扩展性(因为它在推荐时需要用到邻居信息,并且邻居更新更频繁)3. i原创 2012-04-16 17:05:05 · 2908 阅读 · 0 评论 -
[论文笔记]slope one predictors for online rating-based collaborative filtering
作者:Daniel Lemire, Anna Maclachlan。论文概要:slope-one是一种item-based的协同过滤算法,核心思想是线性回归f(x) = x+b。根据用户对item的评分信息,得到任意两个item之间的回归直线。然后根据已评分item计算未评分item的分值。最后根据计算出来的item的分值排序做推荐。它的优点是算法简单,容易实现,可扩展性也不错,但需要是基原创 2012-04-17 19:35:51 · 2410 阅读 · 0 评论 -
Elo rating system
原文:http://en.wikipedia.org/wiki/Elo_rating_systemElo分级系统由美国物理学教授Arpad Elo提出,最初是用于计算象棋比赛中的选手的相对水平,现在已经广泛用于很多类比赛的选手分级。在一场比赛中,选手都有一个分数,这个分数代表了选手的实力。分越高表示选手实力也越高。而分数可以通过打败其他选手来获得。Elo算法的实现细节如下:假设选手翻译 2012-05-02 13:19:54 · 6753 阅读 · 0 评论 -
mahout使用PFP和FPG算法
mahout提供了内存中的FPG和分布式的PFP两种算频繁项集的方法,其中PFP实现上也是将feature分组,然后在节点上独立地运行FPG算法。PFP默认分组为50,如果项的数量特别多,可能需要考虑修改这个值。先来看一下mahout 0.5的FPG测试代码: public void testMaxHeapFPGrowth() throws Exception { FPGr原创 2011-12-01 12:24:41 · 5046 阅读 · 0 评论 -
协同过滤之Slope One算法
纯笔记,直接从维基百科上翻译过来的:http://en.wikipedia.org/wiki/Slope_Oneslope-one算法是基于评分的item-based算法中最简单的一种了,它的思想非常简单,但在很多场合却有很好的效果。但是slope one只适用于有评分的情况,对于二值评分,如商品的有无购买,这种算法是不适用的。通常的item-based算法是基于用户的评分历史及其他用户对翻译 2012-03-07 21:55:01 · 1854 阅读 · 0 评论 -
mahout使用KMeans算法
mahout提供了内存中和分布式的两种KMeans聚类实现。下面是内存中KMeans的代码示例,示例代码使用了最简单的一维向量作为输入: /** * Tests KMeans cluster algorithm in memory, note the test uses only 1-D vector * i.e., a vector of a single do原创 2011-12-01 12:59:17 · 5316 阅读 · 0 评论 -
几个基础概念
极差:range = max -min方差:更适合离散趋势的描述标准差变异系数:标准差/均值,值越大,离散程度越大切比雪夫定理:在任何一个数据集中,至少有(1- 1/z^2)的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值定理含义:1. 至少有75%的数据项与平均数的距离在2个标准差之内2. 至少有89%的数据项与平均数的距离在3个标准差之内原创 2011-12-13 01:12:48 · 638 阅读 · 0 评论 -
数据的标准化
原文:http://webdataanalysis.net/data-analysis-method/data-normalization/ 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。 其中最典型的就是数据的转载 2011-12-16 15:06:52 · 1247 阅读 · 0 评论 -
分类器的测试和验证
转载自:《数据挖掘:实用机器学习技术》在使用分类算法的时候,通常需要去验证分类算法的准确性。最简单常用的方法就是将数据划分成三部分:训练集,验证集,测试集。训练集用于创建分类器,验证集用于优化或调整分类器的参数,而测试集用于计算优化的分类器的误差率。一旦误差率确定,就可以将测试集合并到训练集中,将由此产生的新分类器用于实践。上述方法在对于大数据集的时候可以采用,然而,如果数据集不是很大转载 2011-12-27 11:23:30 · 3245 阅读 · 0 评论 -
统计语言模型(SLM)
摘自:http://ir.ict.ac.cn/~wangbin/ircourse/index.htm 第12讲SLM广泛使用于语音识别和统计机器翻译领域,利用概率统计理论研究语言。规则方法:词、句、篇章的生成比如满足某些规则,不满足该规则就不应存在。统计方法:任何语言片断都有存在的可能,只是可能性大小不同对于一个文档片段d=w1w2…wn,统计语言模型是指概率P(w转载 2012-01-04 20:10:33 · 2848 阅读 · 0 评论 -
常用分类算法
分类算法通常需要经过两步:训练和分类。如下:训练:训练集——>特征选取——>训练——>分类器分类:新样本——>特征选取——>分类——>判决最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。下面对几种主要的分类方法做个简要介绍:(1)决策树决策树归纳是经典的分类算法。它采用自顶转载 2012-02-23 00:26:49 · 1787 阅读 · 0 评论 -
最大熵模型
转自廖先桃的最大熵PPT熵:描述事物无序性的参数,熵越大则越无序。熵在自然界的变化规律:熵增原理当熵处于最小值,即能量集中程度最高、有效能量处于最大值时,整个系统也处于最有序的状态(大爆炸前?)。相反为最无序状态(宇宙的终结?混沌均匀。。。)熵增原理预示着自然界越变越无序。信息熵:事物不确定的程度(香农)随机事件的信息熵:设随机变量ξ,它有A1, A2, A转载 2012-07-31 16:55:36 · 1451 阅读 · 0 评论