MongoDB实战 第1章 MongoDB简介

MongoDB是一款强大、灵活,且易于扩展的通用型数据库。它能扩展出非常多的功能,如二级索引(secondary index)、范围查询(range query)、排序、聚合(aggregation),以及地理空间索引(geospatial index)。本章涵盖了MongoDB的主要设计特点。...

2019-02-20 16:48:52

阅读数 80

评论数 0

Impala实战 第9章 Impala性能优化

本章将主要介绍影响Impala性能的主要因素,以及监控,调整,压力测试的整个过程。如何最大限度地提高Impala的可扩展性问题。 分区:这项技术在物理上基于分区的键值将数据分开存放,这样在基于键值列查询时 连接查询:连接优化是我们在SQL级别能够进行的最主要的优化之一。 表统计信...

2019-02-15 16:00:43

阅读数 59

评论数 0

Impala实战 第7章 Impala存储

全球有很多公司和组织使用Hive。本章提供的案例将详细介绍有趣的和独特的使用场景和我们面临过的问题,以及如何使用Hive这个独特的PB级别数据数据仓库来解决这些问题。 23.1 m6d.com(Media6Degrees) 23.1.1M6D的数据科学,使用Hive和R —Ori Stite...

2019-02-14 11:02:06

阅读数 48

评论数 0

Hive编程指南 第21章 Hive 和亚马逊网络服务系统(AWS)

Amazon提供的作为AmazonWeb服务(AWS)一部分的就是弹性MapReduce(EMR)。 使用EMR可以按需组建一个由节点组成的集群。这些集群用于Hadoop和Hive的安装和配置。(用户也可以配置这个集群,以使用Pig 或者其他工具。)用户可以执行Hive查询语句,然后在完成所有任务...

2019-02-12 15:34:40

阅读数 59

评论数 0

Hive编程指南 第22章 HCatalog

22.1介绍 在Hadoop中使用Hive进行数据处理,除了可以提供一种类SQL的语言供使用外,还提供了其他多个不错的功能。Hive可以存储元数据,这意味着用户不需要记住数据的模式(schema)信息,同时,也意味着用户无需关注数据实际存储在哪里,以及以什么样的存储格式进行存储的。这就使得数据生...

2019-02-01 10:41:33

阅读数 32

评论数 0

Hiv编程指南 第20章 Hive 和Oozie 整合

Apache Oozie 是一个工作流引擎服务器,其用于运行Hadoop Map/Reduce和Pig任务工作流 Hive中的工作流控制系统对于处理单个任务或者处理按照次序执行的多个任务的效果是非常好的。 Oozie工作流任务是一系列“动作”的有向无环图(DAG)。一些工作流是根据需要进行触发的...

2019-01-31 17:42:51

阅读数 35

评论数 0

Hie编程指南 第18章 安全

在了解Hive的安全机制之前,我们需要首先清楚Hadoop的安全机制以及Hadoop的历史。所有的Hadoop组件从头到尾都要使用Kerberos安全认证。 Hive在Hadooop引入Kerberos支持之前就已经存在了,而且Hive目前还没有完全和Hadoop的安全改变相融合。 18.1和...

2019-01-30 20:36:35

阅读数 43

评论数 0

Hive编程指南 第19章 锁

HiveQL是一种SQL方言,但是Hive缺少通常在update和insert类型的查询中使用到的对于列、行或者查询级别的锁支持。Hadoop中的文件通常是一次写入的. Hive可以被认为是一个胖客户端,因为在某种意义上每个Hive CLI、Thrift server或者Web接口实例都不是完全...

2019-01-30 17:02:59

阅读数 27

评论数 0

Hive编程指南 第10章 Hive性能调优

本章将会分几种不同的议题来介绍Hive性能调优。一些调优涉及到调整配置参数的值,而其他一些调优过程则包括启用或者禁用某些特定的特性。 10.1使用EXPLAIN 学习Hive是如何工作的,第一个步骤就是学习EXPLAIN功能,其可以帮助我们学习Hive是如何将查询转化成MapReduce任务的...

2019-01-30 11:41:36

阅读数 23

评论数 0

Hive编程指南 第17章 存储处理程序和 NoSQL

存储处理程序是一个结合InputFormat、OutputFormat、SerDe和Hive 需要使用的特定的代码,来将外部实体作为标准的Hive表进行处理的整体。 17.1 Storage Handler Background Hadoop 中有一个名为InputFormat的抽象接...

2019-01-30 10:12:52

阅读数 44

评论数 0

Hive编程指南 第6章 HiveQL查询

HiveQL:查询 6.1 SELECT… FROM 语句 SELECT是SQL中的射影算子。FROM子句标识了从哪个表、视图或嵌套查询中选择 记录 当用户选择的列是集合数据类型时,Hive会使用JSON (Java脚本对象表示法)语法应 用于输出。 使用JSON格式...

2019-01-30 09:18:34

阅读数 179

评论数 0

Hive编程指南 第16章 Hive的Thrift服务

Hive具有一个可选的组件叫做 HiveServer 或者HiveThrift,其允许通过指定端口访问Hive。 Thrift 是一个软件框架,其用于跨语言的服务开发。 16.1启动Thrift Server 如果想启用HiveServer,可以在后台启动执行这个Hive服务: $ cd $H...

2019-01-29 20:31:00

阅读数 30

评论数 0

Hive编程指南 第14章 Streaming

Hive是通过利用或扩展Hadoop的组件功能来运行的,常见的抽象有InputFormat、OutputFormat、Mapper和Reducer,还包含一些自己的抽象接口,例如SerializerDeserializer (SerDe)、用户自定义函数(UDF)和StorageHandlers...

2019-01-29 19:41:48

阅读数 32

评论数 0

Hive编程指南 第11章 其他文件格式和压缩方法

Hive的一个独特的功能就是:Hive不会强制要求将数据转换成特定的格式才能使用。 对数据进行压缩还是有很大好处的。压缩通常都会节约可观的磁盘空间 通过减少载入内存的数据量而提高IO吞吐量会更加提高网络传输性能。 11.1确定安装编解码器 基于用户所使用的Hadoop版本,会提供不同的编解码器...

2019-01-29 16:41:54

阅读数 18

评论数 0

Hive编程指南 第3章 数据类型和文件格式

Hive 支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型 Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活性。 3.1基本数据类型 Hive 支持多种不同长度的整型和浮点型数据类型,支持布尔类型,也支持无长度限制的字符串...

2019-01-29 08:36:08

阅读数 73

评论数 0

Hive编程指南 第5章 HiveQL数据操作

本章将继续讨论HiveQL,也就是Hive查询语言,并关注于向表中装载数据和从表中抽取数据到文件系统的数据操作语言部分。 5.1向管理表中装载数据 既然Hive没有行级别的数据插入、数据更新和删除操作,那么往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。或者通过其他方式仅仅将文件写...

2019-01-28 07:56:59

阅读数 20

评论数 0

Hive编程指南 第12章 Hive开发

本章将探讨Hive自身的源代码 12.1修改Log4J属性 Hive 可以通过SHIVE_HOME/conf目录下的2个Log4J配置文件来配置日志。其中hive-log4j.properties文件用来控制CLI和其他本地执行组件的日志;而hive-exec-log4j.properties...

2019-01-27 23:55:13

阅读数 15

评论数 0

Hive编程指南 第7章 HiveQL视图

视图可以允许保存一个查询并像对待表一样对这个查询进行操作。这是一个逻辑结构,Hive目前暂不支持物化视图。 当一个查询引用一个视图时,Hive先执行这个视图,然后使用这个结果进行余下后续的查询。 7.1使用视图来降低查询复杂度 当查询变得长或复杂的时候,通过使用视图将这个查询语句分割成多个小的...

2019-01-27 22:59:39

阅读数 202

评论数 0

Hive编程指南 第8章 HiveQL索引

Hive只有有限的索引功能。Hive中没有普通关系型数据库中键的概念 8.1创建索引 下面我们仅对分区字段country建立索引: CREATE INDEX employees indexON TABLE employees(country) AS 'org.apache.hadoop.hiv...

2019-01-27 22:31:01

阅读数 36

评论数 0

Hive编程指南 第9章 模式设计

Hive是反模式的。本章将重点介绍Hive 中哪些模式是用户应该使用的,而又有哪些反模式是应该避免使用的。 9.1按天划分的表 按天划分表就是一种模式,其通常会在表名中加入一个时间戳,例如表名为 upply_2011_01_01、supply_2011_01_02,等等。在Hive中,这种情况...

2019-01-27 22:13:36

阅读数 57

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭