自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq280929090的专栏

菜鸟的成长

  • 博客(7)
  • 资源 (22)
  • 收藏
  • 关注

原创 HBase学习笔记——基本操作:shell和java API

进入HBase shell的命令:./hbase shellHBase的基本操作如下表所示 一、创建表1、shell操作相关shell操作如下所示:显示HBase中的所有表 创建表(指定命名空间、包含列族c1) 创建表(默认命名空间、包含列族c1和c2) 2、Java APIConfiguration conf = HBaseConfiguration.create();HBaseAdmin

2017-02-22 16:41:14 961 1

原创 HBase学习笔记——命名空间(namespace)

在关系数据库系统中,命名空间namespace指的是一个表的逻辑分组,同一组中的表有类似的用途。命名空间的概念为即将到来的多租户特性打下基础:配额管理(Quota Management (HBASE-8410)):限制一个namespace可以使用的资源,资源包括region和table等;命名空间安全管理(Namespace Security Administration (HBASE-920

2017-02-22 16:15:42 20891 2

原创 HBase学习笔记——关键算法/流程

一、Region定位系统如何找到某个行健(或者某个行健范围)所在的Region?HBase 中有两张特殊的表:-ROOT-和.META. .META.:记录了用户表的Region 信息,.META.可以有多个regoin -ROOT-:记录了.META.表的Region 信息,-ROOT-只有一个region Zookeeper 中记录了-ROOT-表的location Cl

2017-02-21 21:50:21 740

原创 HBase学习笔记——系统架构

可以看到,Client访问HBase上数据的过程并不需要Master参与(寻址访问Zookeeper和Region Server,数据读写访问Regione Server),Master仅仅维护者table和region的元数据信息,负载很低。一、Client包含访问hbase的接口,client维护着一些cache来加快对HBase的访问,比如Regione的位置信息。二、Zookeeper保证

2017-02-21 21:17:44 495

原创 HBase学习笔记——物理模型

一、HRegionHBase中表在行的方向上分割为多个Hregion。 HRegion按大小分割的,每个表一开始只有一个region,随着数据不断插入表,HRegion不断增大,当增大到一个阀值的时候,HRegion就会等分会两个新的HRegion,当table中的行不断增多,就会有越来越多的Hregion。 HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HReg

2017-02-21 21:00:00 2255

原创 HBase学习笔记——逻辑视图

本文章将主要讲解HBase的逻辑视图,首先给出逻辑视图的一个例子,之后进行详细的介绍。HBase以表的形式存储数据,表由行和列组成,列划分为若干个列族,每个列族可以有多个列。一、行健(row key)与NoSQL数据库一样,行健是用来检索记录的主键,行健就像RDBMS中的主键。访问hbase table中的行,只有三种方式:1、通过单个row key访问。2、通过row key的range。3、

2017-02-21 20:22:03 2072

原创 HBase学习笔记——入门简介

一、HBase是什么?HBase是一种构建在HDFS之上的分布式、面向列的和提供高可靠性、高性能、列存储、可伸缩、实时读写的开源数据库系统,在需要实时读写、随机访问超大规模数据集时,可以使用HBase。HBase是Apache的Hadoop项目的子项目,该技术来源于 Fay Chang 所撰写的Google论文"Bigtable:一个结构化数据的分布式存储系统"。HBase 是Bigtable 的

2017-02-21 19:42:14 574

stanford-corenlp-full-2014-08-27

斯坦福大学自然语言处理研究组发布的有关自然语言处理的核心jar包,可用于分词等操作

2018-08-27

BeerAdvocate--Preprocess

该语料为啤酒评论数据,共150W条评论,可用于细粒度的情感分析任务当中,即aspect extraction任务当中。 由于资源大小的限制,本资源分为原始数据和处理后的数据,该文件为处理后数据。在处理后数据当中,包含相应的词嵌入模型。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

BeerAdvocate--Source

该语料为啤酒评论数据,共150W条评论,可用于细粒度的情感分析任务当中,即aspect extraction任务当中。 由于资源大小的限制,本资源分为原始数据和处理后的数据,该文件为原始数据。在原始数据当中,包含1000条带标注信息的评论,共9245条句子,标注类别为Feel、Look、Smell、Taste和Overall五种Aspect类别。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

Citysearch Corpus

该语料库为餐馆评论数据,收集自Citysearch New York网站,可用于细粒度的情感分析任务中,即aspect extraction任务当中。在本资源中,原始数据中包含28W条无标注信息的训练数据,以及3400条带标准信息的测试数据。此外,资源中还包括对原始数据进行处理后的数版本,及已经训练好的词嵌入模型。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-03-02

NLPCC2012评估任务_面向中文微博的情感分析

该语料主要用于中文微博中的情感句识别、情感倾向性分析和情感要素抽取。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_跨领域情感分类

给定已标注倾向性的英文评论数据和英文情感词典,要求只利用给出的英文情感资源进行中文评论的情感倾向分类。该任务注重考察多语言环境下情感资源的迁移能力,有助于解决不同语言中情感资源分布的不均衡问题。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博情绪识别

该语料主要用于识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2013评估任务_中文微博观点要素抽取

该语料主要用于识别微博观点句中的评价对象和极性。训练数据由两个微博主题组成,每个主题各一百条,内含标注及数据说明。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

NLPCC2014评估任务2_基于深度学习的情感分类

该语料共包含中文和英文两种语言,主要是商品评论,评论篇幅都比较短,可以被应用于篇章级或者句子级的情感分析任务。数据集被分为训练数据、测试数据、带标签的测试数据三个文件,共有正向和负向两种极性。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-21

MPQA(Multiple-Perspective QA)

Janyce Wiebe等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库。其中标注者为每个子句手工标注出一些情感信息,如观点持有者、评价对象、主观表达式以及其极性与强度。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

康奈尔影评数据集

该语料由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5331句,标注了主客观标签的句子各5000句。该语料可以被应用于各种粒度的,如词语、句子和篇章级情感分析研究中。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网主张词语词典

该词典主要发呢为中文和英文两部分,共包含如下数据:中文主张词语38个、英文主张词语35个。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

知网程度级别词语词典

该词典主要发呢为中文和英文两部分,共包含如下数据:中文程度级别词语219个、英文程度级别词语170个。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

台湾大学中文情感极性词典

该词典为简体的情感极性词典,共包含2812个正向情感词和8278个负向情感词,可以用于二元情感分类任务当中。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

大连理工大学情感词汇本体库(无辅助情感分类)

该资源主要用于情感分析中,而且是基于规则的算法,主要是提供情感极性、程度等先验知识。在该词典当中,每个情感词都被分为正向、负向、中性三个情感极性,并具有从0到10等不同大小的情感程度,且分为七个情感大类(乐、好、怒、哀、惧、恶、惊)和21个小类。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

SemEval-2014 Task 4数据集

SemEval-2014 Task 4数据集主要用于细粒度情感分析,包含Laptop和Restaurant两个领域,每个领域的数据集都分为训练数据、验证数据(从训练数据分离出来)和测试数据,非常适用于有监督的机器学习算法或者深度学习算法,如LSTM等。文件格式为.xml。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025

2018-01-20

中文停用词列表

根据网上现有全部资源,对所谓“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等等各种停用词表,整理去重在提取中文词(而不是大量英文词和中文标点符号)出了一个比较全面的词表出来,一共1598个。

2017-10-22

Deep Learning Book (深度学习)中文版 2017-07-27版

最新的深度学习中文版pdf

2017-08-08

谭松波-酒店评论语料-UTF-8,10000条

现在网上大部分谭松波老师的评论语料资源的编码方式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论

2017-04-19

JAVA实现ElasticSearch的简单实例

在eclipse上,操作elasticsearch的简单程序

2016-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除