自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 cmd循环调用native2ascii.exe

e: cd E:\Program Files (x86)\Myeclipse\Common\binary\com.sun.java.jdk.win32.x86_1.6.0.013\bin for  /l %%i in (1,1,10) do native2ascii.exe source_fi...

2014-01-10 16:41:36

阅读数 521

评论数 0

转载 随机梯度下降法

一、从Multinomial Logistic模型说起 1、Multinomial Logistic 令为维输入向量; 为输出label;(一共k类); 为模型参数向量; Multinomial Logistic模型是指下面这种形式: 其中: ...

2013-11-11 18:46:40

阅读数 696

评论数 0

转载 Learning to Rank入门小结 + 漫谈

Table of Contents 1 前言2 LTR流程3 训练数据的获取4 特征抽取 3.1 人工标注3.2 搜索日志3.3 公共数据集 5 模型训练 5.1 训练方法 5.1.1 Pointwise5.1.2 Pairwise5.1.3 Listwi...

2013-11-04 19:22:23

阅读数 985

评论数 0

转载 代价敏感的学习方法

代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常...

2013-10-30 10:54:18

阅读数 1903

评论数 0

转载 信息检索中的结果评价

一、无序结果评价 1.正确率(Precision) Precision = 返回结果中的相关文档数 / 返回结果的数目 2.召回率(Recall) Recall = 返回结果中的相关文档数 / 所有原本相关文档数目 3.F值,是Precision和Recall的调和平均值 F = (β...

2013-10-29 19:27:00

阅读数 1397

评论数 0

转载 MAP(Mean Average Precision)

MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果...

2013-10-29 19:21:03

阅读数 1711

评论数 0

转载 朴素贝叶斯文本分类

naive bayes(朴素贝叶斯,下面简称NB ^_^)是ML中的一个非常基础和简单的算法,常常 用它来做分类,我用它做过text classification。现在的研究中大概已经很少有人用它来 实验了(除非是做base line),但确实是个很好的入门的算法,来帮助自己更加深刻的理 解...

2013-10-29 18:47:16

阅读数 524

评论数 0

转载 BM25算法

1.       BM25算法 BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:   ∑    其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。 K1通常为1.2,通常为0-1000 K的形式较为...

2013-10-23 23:02:45

阅读数 755

评论数 0

转载 基于朴素贝叶斯分类器的文本分类算法(上)

基于朴素贝叶斯分类器的文本分类算法(上) 转载请保留作者信息: 作者:phinecos(洞庭散人) Blog:http://phinecos.cnblogs.com/ Email:phinecos@163.com Preface 本文缘起于最近在读的一本书-- Tom M.Mitc...

2013-10-14 19:48:34

阅读数 750

评论数 0

转载 x2检验(chi-square test)或称卡方检验

x2检验(chi-square test)或称卡方检验 x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。 一、四格表资料的x2检验 例20.7某医院分别用化学疗法和化疗结合放...

2013-10-12 16:35:35

阅读数 10884

评论数 0

转载 评分员间可信度与Kappa统计量 Inter-rater reliability & Kappa statistics

评分员间可信度inter-rater reliability 在统计学中,评分员间可信度inter-rater reliability,评分员间吻合性inter-rater agreement,或一致性concordance 都是描述评分员之间的吻合程度。它对评判者们给出的评级有多少同质性homo...

2013-10-12 16:02:10

阅读数 6674

评论数 0

转载 SVM入门(七)为何需要核函数

生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实...

2013-10-05 18:23:34

阅读数 504

评论数 0

转载 Learning to Rank之Ranking SVM 简介

机器学习 数据挖掘 推荐系统 Learning to Rank之Ranking SVM 简介 排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learnin...

2013-09-29 16:45:33

阅读数 1063

评论数 0

转载 为什么要集成分类器

将相互之间具有独立决策能力的分类器联合起来的方式就叫作集成分类器。事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力好得多。集成分类器就好比百万富翁节目里的“问现场观众”选项,而单个分类器就是“打电话问老友”。单个人的判断能力在很多情况下是无法跟集体的智慧抗衡的,所以对于同样一个问题,...

2013-09-23 20:01:41

阅读数 623

评论数 0

转载 A collection of papers related with topic models[To be added more]

l  Theory n  Introduction u  Unsupervised learning by probabilistic latent semantic analysis. u  Latent dirichlet allocation. u  Finding ...

2013-09-23 10:01:10

阅读数 722

评论数 0

转载 LDA与主题模型

LDA与主题模型 1 最近看的东西。 主题模型 就是topic model。大意为,一篇文档是由多个主题构成的,每个主题占一部分比例。例如一部分是说电影的,一部分是说成本的。这里是不考虑词序的,就是词出现的先后没有关系。那么,主题是什么呢?主题包含一系列关键词,每个关键词都有一定概...

2013-09-12 20:26:08

阅读数 656

评论数 0

转载 主题模型-LDA浅析

(一)LDA作用         传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。         举个例子,有两个句子分别如下:            ...

2013-09-12 19:15:44

阅读数 629

评论数 0

转载 LDA主题模型简介

LDA主题模型简介 Posted on 2010/10/08 by 范建宁 上个学期到现在陆陆续续研究了一下主题模型(topic model)这个东东。何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用...

2013-09-12 17:58:46

阅读数 708

评论数 0

转载 PLSI

PLSI 未知类C={c1, c2,,,,ck} token W={w1, w2, ,,, wm} doc    D={d1, d2, ,,, dn}   1)选择文档d的概率是p(d) 2)文档d时, 为类z的概率是p(z|d) 3)类z中包含w的概率是 p(w|z) ...

2013-09-12 08:59:56

阅读数 628

评论数 0

转载 个性化推荐系统简述

个性化推荐系统简述 “探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引...

2013-09-09 17:34:52

阅读数 755

评论数 0

转载 浅谈矩阵分解在推荐系统中的应用(转发)

浅谈矩阵分解在推荐系统中的应用(转发) 下文为转发,来自:阿俊的博客 推荐一下此博客, 在推荐系统领域还是能学到不少东西的~~  ------------------------------ 矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可...

2013-09-09 17:32:13

阅读数 813

评论数 0

转载 数据挖掘---Lasso算法简介

使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初,为了尽量减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模...

2013-09-06 16:37:43

阅读数 1544

评论数 0

转载 Max-Product Loopy Belief Propagation

Max-Product Loopy Belief Propagation 关于belief propagation。这是machine learning的泰斗J. Pearl的最重要的贡献。对于统计学来说,它最重要的意义就是在于提出了一种很有效的求解条件边缘概率(conditiona...

2013-09-04 17:32:28

阅读数 1581

评论数 0

转载 怎样量化评价搜索引擎的结果质量

怎样量化评价搜索引擎的结果质量 前言 搜索质量评估是搜索技术研究的基础性工作,也是核心工作之一。评价(Metrics)在搜索技术研发中扮演着重要角色,以至于任何一种新方法与他们的评价方式是融为一体的。 搜索引擎结果的好坏与否,体现在业界所称的在相关性(Relevanc...

2013-09-04 16:06:23

阅读数 654

评论数 0

转载 VC 6.0编译器错误整理

1. 【错误提示】: libcmtd.lib(crt0.obj) : error LNK2001: unresolved external symbol _main      【说      明】: Windows项目要使用Windows子系统, 而不是Console      【解决方法】:...

2013-02-15 22:29:16

阅读数 206

评论数 0

转载 LSA and PLSA笔记

1. 引子 Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开...

2013-02-15 22:19:20

阅读数 451

评论数 0

转载 PLSA的简单概念

PLSA (概率潜语义分析) 是基于 双模式 和 共现 的数据分析方法延伸的经典的统计学方法。概率潜语义分析 应用于信息检索,过滤,自然语言处理,文本的机器学习或者其他相关领域。概率潜语义分析 与 标准潜语义分析 的不同是,标准潜在语义分析是以 共现表(就是共现的矩阵)的奇异值分解的形式表现的,而...

2013-02-15 20:32:11

阅读数 1711

评论数 0

提示
确定要删除当前文章?
取消 删除