基础知识
diemeng1119
这个作者很懒,什么都没留下…
展开
-
Learning to Rank之Ranking SVM 简介
机器学习 数据挖掘 推荐系统Learning to Rank之Ranking SVM 简介排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法:PointWise,PairWise,ListWis转载 2013-09-29 16:45:33 · 1347 阅读 · 0 评论 -
数据挖掘---Lasso算法简介
使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初,为了尽量减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。 Tibshi转载 2013-09-06 16:37:43 · 2500 阅读 · 0 评论 -
基于朴素贝叶斯分类器的文本分类算法(上)
基于朴素贝叶斯分类器的文本分类算法(上)转载请保留作者信息:作者:phinecos(洞庭散人)Blog:http://phinecos.cnblogs.com/Email:phinecos@163.comPreface本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许转载 2013-10-14 19:48:34 · 844 阅读 · 0 评论 -
MAP(Mean Average Precision)
MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相转载 2013-10-29 19:21:03 · 1938 阅读 · 1 评论 -
信息检索中的结果评价
一、无序结果评价1.正确率(Precision)Precision = 返回结果中的相关文档数 / 返回结果的数目2.召回率(Recall)Recall = 返回结果中的相关文档数 / 所有原本相关文档数目3.F值,是Precision和Recall的调和平均值F = (β^2+1)PR / (β^2P+R) ,β=1表示正确率和召回率的等权重,β1表示强调召回率。转载 2013-10-29 19:27:00 · 3926 阅读 · 0 评论 -
朴素贝叶斯文本分类
naive bayes(朴素贝叶斯,下面简称NB ^_^)是ML中的一个非常基础和简单的算法,常常用它来做分类,我用它做过text classification。现在的研究中大概已经很少有人用它来实验了(除非是做base line),但确实是个很好的入门的算法,来帮助自己更加深刻的理解ML的本质。首先从bayes公式开头吧P(C/W) = P(C) * P(W/C) / P(W转载 2013-10-29 18:47:16 · 642 阅读 · 0 评论 -
BM25算法
1. BM25算法BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑ 其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。K1通常为1.2,通常为0-1000K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均长度,b转载 2013-10-23 23:02:45 · 998 阅读 · 0 评论 -
代价敏感的学习方法
代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常,不同的代价被表示成为一个N×N的矩阵Cost中,其中N 是类别的个数。Cost[i, j]表示将转载 2013-10-30 10:54:18 · 2982 阅读 · 0 评论 -
Learning to Rank入门小结 + 漫谈
Table of Contents1 前言2 LTR流程3 训练数据的获取4 特征抽取3.1 人工标注3.2 搜索日志3.3 公共数据集5 模型训练5.1 训练方法5.1.1 Pointwise5.1.2 Pairwise5.1.3 Listwise6 效果评估7 参考6.1 NDCG(Normalized Discounte转载 2013-11-04 19:22:23 · 1185 阅读 · 0 评论 -
评分员间可信度与Kappa统计量 Inter-rater reliability & Kappa statistics
评分员间可信度inter-rater reliability在统计学中,评分员间可信度inter-rater reliability,评分员间吻合性inter-rater agreement,或一致性concordance 都是描述评分员之间的吻合程度。它对评判者们给出的评级有多少同质性homogeneity或共识consensus给出一个分值。它有助于改进人工评判辅助工具,例如确定某个范围是转载 2013-10-12 16:02:10 · 21257 阅读 · 0 评论 -
PLSA的简单概念
PLSA (概率潜语义分析) 是基于 双模式 和 共现 的数据分析方法延伸的经典的统计学方法。概率潜语义分析 应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。概率潜语义分析 与 标准潜语义分析 的不同是,标准潜在语义分析是以 共现表(就是共现的矩阵)的奇异值分解的形式表现的,而概率潜在语义分析却是基于派生自 LCM 的混合矩阵分解。考虑到word和doc共现形式,概率潜语义分析转载 2013-02-15 20:32:11 · 2230 阅读 · 0 评论 -
LDA与主题模型
LDA与主题模型1最近看的东西。主题模型就是topic model。大意为,一篇文档是由多个主题构成的,每个主题占一部分比例。例如一部分是说电影的,一部分是说成本的。这里是不考虑词序的,就是词出现的先后没有关系。那么,主题是什么呢?主题包含一系列关键词,每个关键词都有一定概率在这个主题中出现。拿到一篇文档,对其中的词按照主题来归类,就可以得到这篇文章的主题的成分,包含多少比转载 2013-09-12 20:26:08 · 846 阅读 · 0 评论 -
主题模型-LDA浅析
(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: “乔布斯离我们而去了。” “苹果价格会不会降?”转载 2013-09-12 19:15:44 · 802 阅读 · 0 评论 -
LDA主题模型简介
LDA主题模型简介Posted on 2010/10/08by 范建宁上个学期到现在陆陆续续研究了一下主题模型(topic model)这个东东。何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。D. M转载 2013-09-12 17:58:46 · 853 阅读 · 0 评论 -
PLSI
PLSI未知类C={c1, c2,,,,ck}token W={w1, w2, ,,, wm}doc D={d1, d2, ,,, dn} 1)选择文档d的概率是p(d)2)文档d时, 为类z的概率是p(z|d)3)类z中包含w的概率是 p(w|z) P(w,d) =∑P(c)P(d | c)P(w |c) = P(转载 2013-09-12 08:59:56 · 762 阅读 · 0 评论 -
x2检验(chi-square test)或称卡方检验
x2检验(chi-square test)或称卡方检验x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效转载 2013-10-12 16:35:35 · 32494 阅读 · 1 评论 -
SVM入门(七)为何需要核函数
生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也简单转载 2013-10-05 18:23:34 · 587 阅读 · 0 评论 -
Max-Product Loopy Belief Propagation
Max-Product Loopy Belief Propagation关于belief propagation。这是machine learning的泰斗J. Pearl的最重要的贡献。对于统计学来说,它最重要的意义就是在于提出了一种很有效的求解条件边缘概率(conditional marginal probability)的方法。说的有点晦涩了,其实所谓求解条件边缘概率,通俗地转载 2013-09-04 17:32:28 · 3673 阅读 · 0 评论 -
LSA and PLSA笔记
1. 引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:稀疏性(Sparseness)转载 2013-02-15 22:19:20 · 548 阅读 · 0 评论