hive中数据的几种加载方式

1、从linux fs和hdfs中加载 load data [local] inpath 'path' [overwrite] into table tblName [partition_sepc]; [local]:如果加上表示本地地址,如果没有表示HDFS上的地址。 [ove...

2017-04-19 23:05:22

阅读数 1704

评论数 0

metadata远程存储和hive.metastore.local属性的说明

官网上对hive.metastore.local属性的解释为:local or remote metastore (Removed as of Hive 0.10: If hive.metastore.uris is empty local mode is assumed, remoteo...

2017-04-19 23:02:31

阅读数 893

评论数 0

hive的metastore的选择

metastore是hive元数据的集中存放地,Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 Hive将元数据存储在数据库中(metastore),目前只支持 mysql、derby。 metastore...

2017-04-19 22:59:08

阅读数 262

评论数 0

调用Hadoop时遇到的一个问题:could not find or load main class

最近在使用其他框架调用Hadoop时,执行命令出现错误,查看UI界面的日志发现,如下: 导致错误的原因应该是,在程序运行时,找不到Hadoop中的MRAppMaster的主类,导致程序无法进行下去。 解决方法: 在yarn-site.xml文件中name为yarn.a...

2017-04-19 22:41:31

阅读数 5097

评论数 0

集群运行spark时出现的问题

在运行spark时遇到一个问题,spark程序在集群上运行了一段时间后,突然挂掉了,查看日志发现了下面的错误信息,如下图所示: spark程序是提交到yarn上运行的,而在yarn中,container是程序最终运行的容器,从上面的日志上我们可以看到是在container启动时出现了异常...

2017-04-19 22:38:01

阅读数 353

评论数 0

hive表的DDL操作

查看表 hive> show tables; 创建表 hive> create table t1(id int); 查看表结构 hive> desc [extended] t1; extended是可选的,是扩展的表的信...

2017-04-19 22:23:28

阅读数 200

评论数 0

hive常用语句示例

1/ DDL 1.1 内部表和外部表(external) create table t_2(id int,name string,salary bigint,add string) row format delimited fields terminated by ','; ...

2017-04-19 22:22:14

阅读数 261

评论数 0

数据的两种加载模式

读模式 数据库加载数据的时候不进行数据的合法性校验,在查询数据的时候将不合法的数据显示为NULL, 好处:加载速度快,适合大数据的加载。 写模式 数据库加载数据的时候要进行数据的合法性校验,在数据库里面的数据都是合法的 好处:适合进行查询,不会担心有不合法的数据存在。...

2017-04-19 22:15:30

阅读数 337

评论数 0

hive的三种复合数据类型array、map、struct以及自定义分割符示例

Hive的数据类型主要有int、boolean、date、array、map、struct等,在这只描述array,map,struct三种。 1.array(等同于数组,可以使用下标来操作相应的元素) 默认分割符下的array,示例如下: 有一群学生,id,name...

2017-04-19 22:04:21

阅读数 3813

评论数 0

hive的四种表类型

Hive表有受控表(内部表)、外部表、分区表、桶表四种。 内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除。 外部表,数据存在与否和表的定义互不约束,仅仅只是表对hdfs上相应文件的一个引用,当删除表定义的时候,表中的...

2017-04-19 22:02:46

阅读数 5148

评论数 0

hive视图和索引的简单介绍

Hive和mysql等数据库一样,也有视图的概念,视图实际上是一张虚拟的表,是对数据的逻辑表示,只是一种显示的方式,主要的作用是: 1、视图能够简化用户的操作 2、视图使用户能以多钟角度看待同一数据 3、视图对重构数据库提供了一定程度的逻辑独立性 4、视图能够对机密数据提供...

2017-04-19 22:01:10

阅读数 263

评论数 0

数据的导出

这个是数据装载的反向过程,有两种方式 1°、在hdfs的直接上操作 hadoop fs -cp src_uri dest_uri 或者 hive> export table tblName to'hdfs_uri'; 2°、在终端使用directory i...

2017-04-19 21:42:34

阅读数 131

评论数 0

hive中的本地模式

hive中的hql语句的执行大部分最后转化为了mr,但是执行的过程非常的慢,可以使用本地模式提高效率,不过不适合大数据量的时候。 需要开启本地模式: sethive.exec.mode.local.auto=true; 这时再去执行相同的hql时,会发现速度提高很多。但是,本地模...

2017-04-19 21:40:54

阅读数 200

评论数 0

sqoop从mysql迁移数据到hive中遇到的问题

INFO mapreduce.Job: Counters: 12         Job Counters                  Failed map tasks=1                 Killed map tasks=3             ...

2017-04-19 21:22:44

阅读数 3118

评论数 1

spark的持久化存储

Spark RDD是惰性求值的,而有时由于业务需要,我们要复用一个RDD。对于这种情况,如果我们只是简单地对RDD调用行动操作,Spark 将会每次都重算RDD 以及它的所有依赖。这在迭代算法中消耗格外大,因为迭代算法常常会多次使用同一组数据。 例如:Scala 中的两次执行 ...

2017-04-13 22:54:00

阅读数 185

评论数 0

惰性求值的简单介绍

惰性求值意味着当我们对RDD调用转化操作(例如调用filter() )时,操作不会立即执行。Spark会在内部记录下所要执行的操作的相关信息。所以我们这时不应该把RDD看作存放着特定数据的数据集,而要把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。把数据读取到RDD的操作也...

2017-04-12 22:14:21

阅读数 567

评论数 0

spark的数据存储

Spark数据存储的核心是弹性分布式数据集(RDD)。RDD可以被抽象地理解为一个大的数组,这个数组中的每个元素是RDD逻辑上的一个分区(partition),每个分区分布在集群上的不同节点上。 在spark的执行过程中,RDD经过transformation算子之后,最后由ac...

2017-04-12 22:13:35

阅读数 927

评论数 0

RDD的两种操作算子

RDD支持两种类型的操作算子:Transformation(转换)与Action(行动)。 1、Transformation(变换) Transformation操作会由一个RDD生成一个新的 RDD。Transformation操作是延迟计算的,也就是说从一个...

2017-04-12 22:12:40

阅读数 2717

评论数 0

RDD的简介

在spark中,有一个不可变的分布式数据结构,即弹性分布式数据集(RDD),它是逻辑集中的实体,在集群中的多个节点上被分为多个分区。通过对多个节点上不同RDD分区的控制,能够减少机器之间的数据重排(data shuffling)。 Spark提供了一个”partitionBy”运...

2017-04-12 22:10:48

阅读数 189

评论数 0

MapReduce的介绍

MR简述: MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。   MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶...

2017-04-12 22:09:47

阅读数 171

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭