2017年04月_qq280929090

12月 09月 08月 07月 05月 04月 03月 02月

原创【Pattern学习】概述

1 简介　　Pattern的下载地址为：http://www.clips.ua.ac.be/pattern 　　Pattern是Python编程语言的一个Web挖掘模块。它具有数据挖掘工具（谷歌，推特和维基百科API，Web爬虫，HTML DOM解析器）、自然语言处理（词性标注、n-gram搜索，情感分析，WordNet），机器学习（向量空间模型，聚类，支持向量机）、网络分析和可视化。 ...

2017-04-27 10:13:59 3711

原创情感分析资源大全（语料、词典、词嵌入、代码）

　　该博客收集情感分析领域中一些语料、词典等。1 语料库1.1 谭松波-酒店评论语料-UTF-8,10000条　　现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即一篇评论。　　下载地址为：谭...

2017-04-27 09:15:32 67229 12

转载【机器学习】多类分类性能评价之宏平均(macro-average)与微平均(micro-average)

通常，我们在评价classifier的性能时使用的是accuracy考虑在多类分类的背景下accuracy = (分类正确的样本个数) / (分类的所有样本个数)这样做其实看上去也挺不错的，不过可能会出现一个很严重的问题：例如某一个不透明的袋子里面装了1000台手机，其中有600台iphone6, 300台galaxy s6, 50台华为mate7,50台mx4(当然，这些信息分类器是不...

2017-04-24 15:44:28 20211 9

转载【机器学习】多分类问题中查全率和查准率的理解(Precision-Recall)

查全率查准率是从信息检索来的，那么我们就得先看看原来的是怎么定义的：查全率——它是指检出的相关文献量与检索系统中相关文献总量的比率，是衡量信息检索系统检出相关文献能力的尺度。查准率——它是指检出的相关文献量与检出文献总量的比率，是衡量信息检索系统检出文献准确度的尺度。使用泛指性较强的检索语言(如上位类、上位主题词)能提高查全率，但查准率下降。使用专指性较强的检索语言(如下位类、下位主题词)...

2017-04-24 15:12:00 13156 3

转载【机器学习】准确率、召回率、F1

在信息检索、分类体系中，有一系列的指标，搞清楚这些指标对于评价检索和分类性能非常重要，因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式:          &nbsp...

2017-04-23 12:54:05 1031

原创【自然语言处理】词性标记代码及其含义

以下为各个词性的含义 1. CC Coordinating conjunction 连接词2. CD Cardinal number 基数词3. DT Determiner 限定词（如this,that,these,those,such，不定限定词：no,some,any,each,every,enough,either,nei...

2017-04-13 21:04:45 2477

1、简介后缀树（Suffix tree）是一种数据结构，能快速解决很多关于字符串的问题。后缀树提出的目的是用来支持有效的字符串匹配和查询。一个具有m个词的字符串S的后缀树T，就是一个包含一个根节点的有向树，该树恰好带有m个叶子，这些叶子被赋予从1到m的标号。每一个内部节点，除了根节点以外，都至少有两个子节点，而且每条边都用$的一个非空子串来标识。出自同一节点的任意两条边的标识不会以相同的词开始。...

2017-04-10 15:39:30 712 2

stanford-corenlp-full-2014-08-27

斯坦福大学自然语言处理研究组发布的有关自然语言处理的核心jar包，可用于分词等操作

2018-08-27

BeerAdvocate--Preprocess

该语料为啤酒评论数据，共150W条评论，可用于细粒度的情感分析任务当中，即aspect extraction任务当中。由于资源大小的限制，本资源分为原始数据和处理后的数据，该文件为处理后数据。在处理后数据当中，包含相应的词嵌入模型。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

BeerAdvocate--Source

该语料为啤酒评论数据，共150W条评论，可用于细粒度的情感分析任务当中，即aspect extraction任务当中。由于资源大小的限制，本资源分为原始数据和处理后的数据，该文件为原始数据。在原始数据当中，包含1000条带标注信息的评论，共9245条句子，标注类别为Feel、Look、Smell、Taste和Overall五种Aspect类别。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

Citysearch Corpus

该语料库为餐馆评论数据，收集自Citysearch New York网站，可用于细粒度的情感分析任务中，即aspect extraction任务当中。在本资源中，原始数据中包含28W条无标注信息的训练数据，以及3400条带标准信息的测试数据。此外，资源中还包括对原始数据进行处理后的数版本，及已经训练好的词嵌入模型。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

NLPCC2012评估任务_面向中文微博的情感分析

该语料主要用于中文微博中的情感句识别、情感倾向性分析和情感要素抽取。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_跨领域情感分类

给定已标注倾向性的英文评论数据和英文情感词典，要求只利用给出的英文情感资源进行中文评论的情感倾向分类。该任务注重考察多语言环境下情感资源的迁移能力，有助于解决不同语言中情感资源分布的不均衡问题。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博情绪识别

该语料主要用于识别出整条微博所表达的情绪，不是简单的褒贬分类，而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等)，属于细粒度的情感分类问题。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博观点要素抽取

该语料主要用于识别微博观点句中的评价对象和极性。训练数据由两个微博主题组成，每个主题各一百条，内含标注及数据说明。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2014评估任务2_基于深度学习的情感分类

该语料共包含中文和英文两种语言，主要是商品评论，评论篇幅都比较短，可以被应用于篇章级或者句子级的情感分析任务。数据集被分为训练数据、测试数据、带标签的测试数据三个文件，共有正向和负向两种极性。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

MPQA（Multiple-Perspective QA）

Janyce Wiebe等人所开发的MPQA(Multiple-Perspective QA)库：包含535 篇不同视角的新闻评论，它是一个进行了深度标注的语料库。其中标注者为每个子句手工标注出一些情感信息，如观点持有者、评价对象、主观表达式以及其极性与强度。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

康奈尔影评数据集

该语料由电影评论组成，其中持肯定和否定态度的各1,000 篇；另外还有标注了褒贬极性的句子各5331句，标注了主客观标签的句子各5000句。该语料可以被应用于各种粒度的，如词语、句子和篇章级情感分析研究中。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网主张词语词典

该词典主要发呢为中文和英文两部分，共包含如下数据：中文主张词语38个、英文主张词语35个。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网程度级别词语词典

该词典主要发呢为中文和英文两部分，共包含如下数据：中文程度级别词语219个、英文程度级别词语170个。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

台湾大学中文情感极性词典

该词典为简体的情感极性词典，共包含2812个正向情感词和8278个负向情感词，可以用于二元情感分类任务当中。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

大连理工大学情感词汇本体库（无辅助情感分类）

该资源主要用于情感分析中，而且是基于规则的算法，主要是提供情感极性、程度等先验知识。在该词典当中，每个情感词都被分为正向、负向、中性三个情感极性，并具有从0到10等不同大小的情感程度，且分为七个情感大类（乐、好、怒、哀、惧、恶、惊）和21个小类。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

SemEval-2014 Task 4数据集

SemEval-2014 Task 4数据集主要用于细粒度情感分析，包含Laptop和Restaurant两个领域，每个领域的数据集都分为训练数据、验证数据（从训练数据分离出来）和测试数据，非常适用于有监督的机器学习算法或者深度学习算法，如LSTM等。文件格式为.xml。情感分析资源大全：http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

中文停用词列表

根据网上现有全部资源，对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表，整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来，一共1598个。

2017-10-22

Deep Learning Book (深度学习)中文版 2017-07-27版

最新的深度学习中文版pdf

2017-08-08

谭松波-酒店评论语料-UTF-8,10000条

现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312，本资源除了原始编码格式，还具有UTF-8编码格式。本资源还包含将所有语料分成pos.txt和neg.txt两个文件，每个文件中的一行代表原始数据的一个txt文件，即一篇评论

2017-04-19

JAVA实现ElasticSearch的简单实例

在eclipse上，操作elasticsearch的简单程序

2016-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq280929090的专栏

原创【Pattern学习】概述

原创情感分析资源大全（语料、词典、词嵌入、代码）

转载【机器学习】多类分类性能评价之宏平均(macro-average)与微平均(micro-average)

转载【机器学习】多分类问题中查全率和查准率的理解(Precision-Recall)

转载【机器学习】准确率、召回率、F1

原创【自然语言处理】词性标记代码及其含义

原创【数据结构】后缀树

stanford-corenlp-full-2014-08-27

BeerAdvocate--Preprocess

BeerAdvocate--Source

Citysearch Corpus

NLPCC2012评估任务_面向中文微博的情感分析

NLPCC2013评估任务_跨领域情感分类

NLPCC2013评估任务_中文微博情绪识别

NLPCC2013评估任务_中文微博观点要素抽取

NLPCC2014评估任务2_基于深度学习的情感分类

MPQA（Multiple-Perspective QA）

康奈尔影评数据集

知网主张词语词典

知网程度级别词语词典

台湾大学中文情感极性词典

大连理工大学情感词汇本体库（无辅助情感分类）

SemEval-2014 Task 4数据集

中文停用词列表

Deep Learning Book (深度学习)中文版 2017-07-27版

谭松波-酒店评论语料-UTF-8,10000条

JAVA实现ElasticSearch的简单实例

空空如也