- 博客(7)
- 资源 (22)
- 收藏
- 关注
原创 【Pattern学习】概述
1 简介 Pattern的下载地址为:http://www.clips.ua.ac.be/pattern Pattern是Python编程语言的一个Web挖掘模块。它具有数据挖掘工具(谷歌,推特和维基百科API,Web爬虫,HTML DOM解析器)、自然语言处理(词性标注、n-gram搜索,情感分析,WordNet),机器学习(向量空间模型,聚类,支持向量机)、网络分析和可视化。 ...
2017-04-27 10:13:59 3711
原创 情感分析资源大全(语料、词典、词嵌入、代码)
该博客收集情感分析领域中一些语料、词典等。1 语料库1.1 谭松波-酒店评论语料-UTF-8,10000条 现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论。 下载地址为:谭...
2017-04-27 09:15:32 67229 12
转载 【机器学习】多类分类性能评价之宏平均(macro-average)与微平均(micro-average)
通常,我们在评价classifier的性能时使用的是accuracy考虑在多类分类的背景下accuracy = (分类正确的样本个数) / (分类的所有样本个数)这样做其实看上去也挺不错的,不过可能会出现一个很严重的问题:例如某一个不透明的袋子里面装了1000台手机,其中有600台iphone6, 300台galaxy s6, 50台华为mate7,50台mx4(当然,这些信息分类器是不...
2017-04-24 15:44:28 20211 9
转载 【机器学习】多分类问题中查全率和查准率的理解(Precision-Recall)
查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度。 查准率——它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度的尺度。 使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率,但查准率下降。 使用专指性较强的检索语言(如下位类、下位主题词)...
2017-04-24 15:12:00 13156 3
转载 【机器学习】准确率、召回率、F1
在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:  ...
2017-04-23 12:54:05 1031
原创 【自然语言处理】词性标记代码及其含义
以下为各个词性的含义 1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,nei...
2017-04-13 21:04:45 2477
原创 【数据结构】后缀树
1、简介后缀树(Suffix tree)是一种数据结构,能快速解决很多关于字符串的问题。后缀树提出的目的是用来支持有效的字符串匹配和查询。一个具有m个词的字符串S的后缀树T,就是一个包含一个根节点的有向树,该树恰好带有m个叶子,这些叶子被赋予从1到m的标号。 每一个内部节点,除了根节点以外,都至少有两个子节点,而且每条边都用$的一个非空子串来标识。出自同一节点的任意两条边的标识不会以相同的词开始。...
2017-04-10 15:39:30 712 2
BeerAdvocate--Preprocess
2018-03-02
BeerAdvocate--Source
2018-03-02
Citysearch Corpus
2018-03-02
NLPCC2012评估任务_面向中文微博的情感分析
2018-01-21
NLPCC2013评估任务_跨领域情感分类
2018-01-21
NLPCC2013评估任务_中文微博情绪识别
2018-01-21
NLPCC2013评估任务_中文微博观点要素抽取
2018-01-21
NLPCC2014评估任务2_基于深度学习的情感分类
2018-01-21
MPQA(Multiple-Perspective QA)
2018-01-20
康奈尔影评数据集
2018-01-20
知网主张词语词典
2018-01-20
知网程度级别词语词典
2018-01-20
台湾大学中文情感极性词典
2018-01-20
大连理工大学情感词汇本体库(无辅助情感分类)
2018-01-20
SemEval-2014 Task 4数据集
2018-01-20
中文停用词列表
2017-10-22
谭松波-酒店评论语料-UTF-8,10000条
2017-04-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人