diemeng1119
码龄16年
关注
提问 私信
  • 博客:94,161
    社区:1,076
    95,237
    总访问量
  • 1
    原创
  • 1,602,638
    排名
  • 15
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山东省
  • 加入CSDN时间: 2009-07-04
博客简介:

diemeng1119的专栏

查看详细资料
个人成就
  • 获得11次点赞
  • 内容获得3次评论
  • 获得58次收藏
创作历程
  • 1篇
    2014年
  • 25篇
    2013年
成就勋章
TA的专栏
  • 论文相关
    1篇
  • 基础知识
    19篇
  • 可信度
    1篇
  • 谣言
  • 主题
    1篇
  • C++
    1篇
  • web
    1篇
  • 推荐
    2篇
  • 其它
    1篇
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

cmd循环调用native2ascii.exe

e:cd E:\Program Files (x86)\Myeclipse\Common\binary\com.sun.java.jdk.win32.x86_1.6.0.013\binfor  /l %%i in (1,1,10) do native2ascii.exe source_file destination_file pause
原创
发布博客 2014.01.10 ·
732 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

Learning to Rank入门小结 + 漫谈

Table of Contents1 前言2 LTR流程3 训练数据的获取4 特征抽取3.1 人工标注3.2 搜索日志3.3 公共数据集5 模型训练5.1 训练方法5.1.1 Pointwise5.1.2 Pairwise5.1.3 Listwise6 效果评估7 参考6.1 NDCG(Normalized Discounte
转载
发布博客 2013.11.04 ·
1198 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

代价敏感的学习方法

代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;在金融信用卡盗用检测中,“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常,不同的代价被表示成为一个N×N的矩阵Cost中,其中N 是类别的个数。Cost[i, j]表示将
转载
发布博客 2013.10.30 ·
2997 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

信息检索中的结果评价

一、无序结果评价1.正确率(Precision)Precision = 返回结果中的相关文档数 / 返回结果的数目2.召回率(Recall)Recall = 返回结果中的相关文档数 / 所有原本相关文档数目3.F值,是Precision和Recall的调和平均值F = (β^2+1)PR / (β^2P+R) ,β=1表示正确率和召回率的等权重,β1表示强调召回率。
转载
发布博客 2013.10.29 ·
4002 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MAP(Mean Average Precision)

MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相
转载
发布博客 2013.10.29 ·
1958 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

朴素贝叶斯文本分类

naive bayes(朴素贝叶斯,下面简称NB ^_^)是ML中的一个非常基础和简单的算法,常常用它来做分类,我用它做过text classification。现在的研究中大概已经很少有人用它来实验了(除非是做base line),但确实是个很好的入门的算法,来帮助自己更加深刻的理解ML的本质。首先从bayes公式开头吧P(C/W) = P(C) * P(W/C) / P(W
转载
发布博客 2013.10.29 ·
653 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

BM25算法

1.       BM25算法BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑  其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。K1通常为1.2,通常为0-1000K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均长度,b
转载
发布博客 2013.10.23 ·
1019 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于朴素贝叶斯分类器的文本分类算法(上)

基于朴素贝叶斯分类器的文本分类算法(上)转载请保留作者信息:作者:phinecos(洞庭散人)Blog:http://phinecos.cnblogs.com/Email:phinecos@163.comPreface本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许
转载
发布博客 2013.10.14 ·
855 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

x2检验(chi-square test)或称卡方检验

x2检验(chi-square test)或称卡方检验x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。一、四格表资料的x2检验例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效
转载
发布博客 2013.10.12 ·
35472 阅读 ·
1 点赞 ·
1 评论 ·
14 收藏

评分员间可信度与Kappa统计量 Inter-rater reliability & Kappa statistics

评分员间可信度inter-rater reliability在统计学中,评分员间可信度inter-rater reliability,评分员间吻合性inter-rater agreement,或一致性concordance 都是描述评分员之间的吻合程度。它对评判者们给出的评级有多少同质性homogeneity或共识consensus给出一个分值。它有助于改进人工评判辅助工具,例如确定某个范围是
转载
发布博客 2013.10.12 ·
21949 阅读 ·
4 点赞 ·
0 评论 ·
31 收藏

SVM入门(七)为何需要核函数

生存?还是毁灭?——哈姆雷特 可分?还是不可分?——支持向量机 之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也简单
转载
发布博客 2013.10.05 ·
602 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Learning to Rank之Ranking SVM 简介

机器学习 数据挖掘 推荐系统Learning to Rank之Ranking SVM 简介排序一直是信息检索的核心问题之一,Learning to Rank(简称LTR)用机器学习的思想来解决排序问题(关于Learning to Rank的简介请见我的博文Learning to Rank简介)。LTR有三种主要的方法:PointWise,PairWise,ListWis
转载
发布博客 2013.09.29 ·
1370 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

为什么要集成分类器

将相互之间具有独立决策能力的分类器联合起来的方式就叫作集成分类器。事实证明通常情况下集成分类器的预测能力要比单个分类器的预测能力好得多。集成分类器就好比百万富翁节目里的“问现场观众”选项,而单个分类器就是“打电话问老友”。单个人的判断能力在很多情况下是无法跟集体的智慧抗衡的,所以对于同样一个问题,“问现场观众”会比“打电话问老友”把握性大得多(除非你的这位老友真的是爱因斯坦级别的人了,呵呵)。
转载
发布博客 2013.09.23 ·
1048 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

A collection of papers related with topic models[To be added more]

l  Theoryn  Introductionu  Unsupervised learning by probabilistic latent semantic analysis.u  Latent dirichlet allocation.u  Finding scientific topics.u  Rethinking LDA: Why Priors
转载
发布博客 2013.09.23 ·
1035 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LDA与主题模型

LDA与主题模型1最近看的东西。主题模型就是topic model。大意为,一篇文档是由多个主题构成的,每个主题占一部分比例。例如一部分是说电影的,一部分是说成本的。这里是不考虑词序的,就是词出现的先后没有关系。那么,主题是什么呢?主题包含一系列关键词,每个关键词都有一定概率在这个主题中出现。拿到一篇文档,对其中的词按照主题来归类,就可以得到这篇文章的主题的成分,包含多少比
转载
发布博客 2013.09.12 ·
860 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

主题模型-LDA浅析

(一)LDA作用        传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。        举个例子,有两个句子分别如下:                “乔布斯离我们而去了。”                “苹果价格会不会降?”   
转载
发布博客 2013.09.12 ·
821 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

LDA主题模型简介

LDA主题模型简介Posted on 2010/10/08by 范建宁上个学期到现在陆陆续续研究了一下主题模型(topic model)这个东东。何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个句子所表达的中心思想。不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章、一段话、一个句子是从一个概率模型中生成的。D. M
转载
发布博客 2013.09.12 ·
866 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PLSI

PLSI未知类C={c1, c2,,,,ck}token W={w1, w2, ,,, wm}doc    D={d1, d2, ,,, dn} 1)选择文档d的概率是p(d)2)文档d时, 为类z的概率是p(z|d)3)类z中包含w的概率是 p(w|z) P(w,d) =∑P(c)P(d | c)P(w |c) = P(
转载
发布博客 2013.09.12 ·
774 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

个性化推荐系统简述

个性化推荐系统简述“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它
转载
发布博客 2013.09.09 ·
1312 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

浅谈矩阵分解在推荐系统中的应用(转发)

浅谈矩阵分解在推荐系统中的应用(转发)下文为转发,来自:阿俊的博客推荐一下此博客, 在推荐系统领域还是能学到不少东西的~~ ------------------------------矩阵分解是最近几年比较火的算法,经过kddcup和netflix比赛的多人多次检验,矩阵分解可以带来更好的结果,而且可以充分地考虑各种因素的影响,有非常好的扩展性,因为要考虑多
转载
发布博客 2013.09.09 ·
957 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多