自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 HBase非关系型数据库

1. HBase非关系型数据库 1) 对比和数据模型 1. HBase-Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库 2. 在Hadoop生态圈中,它是其中一部分且利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服...

2018-09-20 21:05:24 1856

原创 HBase性能优化

1. 表的设计 1) Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负...

2018-09-20 20:13:51 182

原创 HBase 预分区

1. 表结构设计之高表与宽表选择 1) HBase 中的表可以设计为高表(tall-narrow table) 和 宽表(flat-wide table) 1. 高表 : 列少而行多 2. 宽表 : 行少而列多 3. HBase只能按行分片,因此高表更有优势。设想用户将一个电子邮件都存储在一行中。这在大部分情况下都是合适的,但是也有人的收件箱中有大量的邮件。 大到一行...

2018-09-20 19:12:23 195

原创 Hadoop 之 Hive

1. Hive 及数据仓库简介 Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能可以将 sql 语句转换为 MapReduce 任务进行运行 2. Hive 及数据仓库简介 1) 数据处理大致可以分成两大类: 1. 联机事务处理OLTP 1. OLTP是传统的关系型数据库的主要...

2018-09-17 20:13:29 205

原创 Hadoop之MapReduce

1. MapReduce解决的问题 1) 数据问题:10G 的 TXT 文件 2) 生活问题:统计分类上海市的图书馆的书 2. MapReduce 是什么 MapReduce 是一种分布式的离线计算框架,是一种编程模型,用于大规模数据集(大于 1TB)的并行运算将自己的程序运行在分布式...

2018-09-16 17:57:34 188

原创 HadoopHA及yarn

1. Hadoop 2.0 产生背景 1) Hadoop 1.0 中 HDFS 和 MapReduce 在高可用、扩展性等方面存在问题 2) HDFS 存在的问题 1. NameNode 单点故障,难以应用于在线场景 2. NameNode 压力过大,且内存受限,影响系统扩展性 ...

2018-09-16 17:27:32 218

原创 Hadoop之HDFS理论及操作

HDFS 分布式是什么? 分布式 是把一个庞大的数据 和一个复杂的业务 分别部署在不同的计算机上运行 ...

2018-09-16 14:51:25 249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除