分类
文章平均质量分 79
天才暴风
我想就这样一直打球
展开
-
浅谈朴素贝叶斯与文本分类(一)
开始介绍文本分类之前,我们先来了解一下贝叶斯分类器1.分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,我们选择具有最大后验概率的类作为对象所属的类。在文本分类里面,每一篇文档就是一个对象。可能这样说会比较抽象一点,举一个简单的例子,加入我们走在大街上看到一个大高个儿(身高大于2米),我们肯定会猜他是打篮球的,我们的这种猜测是基于 打篮球的人,他们个原创 2015-01-31 11:24:05 · 1120 阅读 · 0 评论 -
文本分类中的主题模型
最近在看一些关于主题模型和文本分类的论文,在这里和大家分享一下首先呢,先搞清楚一件事情就是文本分类是干啥的;文本分类就是计算机通过一定的规则,对文本进行分类(感觉像没说一样),这个类别一半是已经定义好的实际应用里面,可以将电影或者产品的评论看作是文本,我们可以对其中的褒贬性进行分类,褒义和贬义就是两个类别,我们要做的就是训练一个分类器,当输入一个文本时,分类器就会为他贴上一个“褒义”或原创 2015-04-08 21:08:48 · 4762 阅读 · 0 评论 -
文本相似度计算之tf-idf
最基本的文本相似度计算是在向量空间模型(VSM)下,以文档中的词作为特征进行计算:先来说一下VSM思想很简单:假设我现在的文档集中有3篇文档:原创 2015-07-20 20:59:17 · 2814 阅读 · 0 评论 -
SemEval-2014 论文笔记(1)
title:NRC-Canada-2014: Detecting Aspects and Sentiment in Customer Reviews最近在研究aspect-based sentiment analysis (ABSA), 然后先从SemEval国际竞赛中排名比较靠前的系统中学习一下经验。今天要介绍的是加拿大国家研究局(NRC-Canada)的研究员公布的系统。介绍系统之前,我们先来了原创 2016-10-17 21:15:38 · 4320 阅读 · 0 评论 -
多类分类(Multi-label classification)性能评价之宏平均(macro-average)与微平均(micro-average)
通常,我们在评价classifier的性能时使用的是accuracy考虑在多类分类的背景下accuracy = (分类正确的样本个数) / (分类的所有样本个数)这样做其实看上去也挺不错的,不过可能会出现一个很严重的问题:例如某一个不透明的袋子里面装了1000台手机,其中有600台iphone6, 300台galaxy s6, 50台华为mate7,50台mx4(当然,这些信息分类器是原创 2015-07-16 10:17:55 · 11788 阅读 · 13 评论