2013年09月_diemeng1119

11月 10月 09月 02月

转载 Learning to Rank之Ranking SVM 简介

机器学习数据挖掘推荐系统Learning to Rank之Ranking SVM 简介排序一直是信息检索的核心问题之一，Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法：PointWise，PairWise，ListWis

2013-09-29 16:45:33 1337

转载为什么要集成分类器

将相互之间具有独立决策能力的分类器联合起来的方式就叫作集成分类器。事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力好得多。集成分类器就好比百万富翁节目里的“问现场观众”选项，而单个分类器就是“打电话问老友”。单个人的判断能力在很多情况下是无法跟集体的智慧抗衡的，所以对于同样一个问题，“问现场观众”会比“打电话问老友”把握性大得多（除非你的这位老友真的是爱因斯坦级别的人了，呵呵）。

2013-09-23 20:01:41 1031

转载 A collection of papers related with topic models[To be added more]

l Theoryn Introductionu Unsupervised learning by probabilistic latent semantic analysis.u Latent dirichlet allocation.u Finding scientific topics.u Rethinking LDA: Why Priors

2013-09-23 10:01:10 1022

转载 LDA与主题模型

LDA与主题模型1最近看的东西。主题模型就是topic model。大意为，一篇文档是由多个主题构成的，每个主题占一部分比例。例如一部分是说电影的，一部分是说成本的。这里是不考虑词序的，就是词出现的先后没有关系。那么，主题是什么呢？主题包含一系列关键词，每个关键词都有一定概率在这个主题中出现。拿到一篇文档，对其中的词按照主题来归类，就可以得到这篇文章的主题的成分，包含多少比

2013-09-12 20:26:08 841

转载主题模型-LDA浅析

（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举个例子，有两个句子分别如下： “乔布斯离我们而去了。” “苹果价格会不会降？”

2013-09-12 19:15:44 798

转载 LDA主题模型简介

LDA主题模型简介Posted on 2010/10/08by 范建宁上个学期到现在陆陆续续研究了一下主题模型（topic model）这个东东。何谓“主题”呢？望文生义就知道是什么意思了，就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说，我们是用一个特定的词频分布来刻画主题的，并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。D. M

2013-09-12 17:58:46 850

转载 PLSI

PLSI未知类C={c1, c2,,,,ck}token W={w1, w2, ,,, wm}doc D={d1, d2, ,,, dn} 1)选择文档d的概率是p(d)2)文档d时，为类z的概率是p(z|d)3)类z中包含w的概率是 p(w|z) P(w,d) =∑P(c)P(d | c)P(w |c) = P(

2013-09-12 08:59:56 758

转载个性化推荐系统简述

个性化推荐系统简述“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章，将深入介绍推荐引擎的工作原理，和其中涉及的各种推荐机制，以及它

2013-09-09 17:34:52 1258

转载浅谈矩阵分解在推荐系统中的应用（转发）

浅谈矩阵分解在推荐系统中的应用（转发）下文为转发，来自：阿俊的博客推荐一下此博客，在推荐系统领域还是能学到不少东西的~~ ------------------------------矩阵分解是最近几年比较火的算法，经过kddcup和netflix比赛的多人多次检验，矩阵分解可以带来更好的结果，而且可以充分地考虑各种因素的影响，有非常好的扩展性，因为要考虑多

2013-09-09 17:32:13 940

转载数据挖掘---Lasso算法简介

使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初，为了尽量减小因缺少重要自变量而出现的模型偏差，通常会选择尽可能多的自变量。然而，建模过程需要寻找对因变量最具有强解释力的自变量集合，也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。　　　　Tibshi

2013-09-06 16:37:43 2491

转载 Max-Product Loopy Belief Propagation

Max-Product Loopy Belief Propagation关于belief propagation。这是machine learning的泰斗J. Pearl的最重要的贡献。对于统计学来说，它最重要的意义就是在于提出了一种很有效的求解条件边缘概率(conditional marginal probability)的方法。说的有点晦涩了，其实所谓求解条件边缘概率，通俗地

2013-09-04 17:32:28 3666

转载怎样量化评价搜索引擎的结果质量

怎样量化评价搜索引擎的结果质量前言搜索质量评估是搜索技术研究的基础性工作，也是核心工作之一。评价（Metrics）在搜索技术研发中扮演着重要角色，以至于任何一种新方法与他们的评价方式是融为一体的。搜索引擎结果的好坏与否，体现在业界所称的在相关性（Relevance）上。相关性的定义包括狭义和广义两方面，狭义的解释是：检索结果和用户查询的相关程度。而从广义的层面，

2013-09-04 16:06:23 804