北京小辉的博客

学习是一种享受,也是一种痛苦,更是一种回忆!!!

Hive表有几个T数据包含了20万个Partition,Hive表删除过程

目录 1、需求 2、问题 3、过程 ————————————————————————————- 1、需求 Hive表有几个T数据包含了20万个Partition,需要将hive表删除 2、问题 drop table if exists table_name; 出现的...

2018-07-26 17:27:47

阅读数:360

评论数:0

Hive表有几个T数据包含了20万个Partition,数据分析过程

目录 1、需求 2、问题 3、解决的方案 3.1、第一种(时间减少30%) 3.2、第二种(时间减少30%–40%,并且可以处理大数据表,不会出现内存溢出) ———————————————————————————— 1、需求: Hive表有几个T数据包含了20万个P...

2018-07-26 13:56:25

阅读数:447

评论数:0

HiveService2启动源码查看

目录 1、问题 2、解决(这里先放着,只作为记录) 3、通过源码和日志排查过程 ———————————————————————————- 1、问题: 近期公司的HiveService2启动有点慢,需要10分钟. 2、解决(这里先放着,只作为记录): 初步的解决...

2018-07-23 17:31:52

阅读数:296

评论数:0

Java连接hive报错01

这个错误是hive的版本的包导致的。java.sql.SQLException: Could not establish connection to jdbc:hive2://hadoop2:10000/default: Required field 'serverProtocolVersion'...

2017-06-03 16:28:47

阅读数:2497

评论数:2

hive启动报错:Found class jline.Terminal, but interface was expected

[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface...

2016-06-02 16:37:24

阅读数:3438

评论数:2

Hive数据存储的各种模式

Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。一、Hive的数据存储在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件...

2016-03-22 22:04:02

阅读数:574

评论数:0

hive中的分页

一、借助唯一标识字段如果分页的表有唯一标识的字段,可以通过这个字段来实现分页: • 获取第一页数据: 注:同时需要记录这10条中最大的id为preId,作为下一页的条件。 select * from table order by id asc limit 10; • 获取第二页数据...

2016-03-20 08:26:29

阅读数:6131

评论数:0

hive中的排序

order byorder by 会对输入做全局排序,因此只有一个reducer**(多个reducer无法保证全局有序)**只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 Sql代码 1. set hive.mapred.mode=nonstrict; (defaul...

2016-03-19 19:16:10

阅读数:552

评论数:0

HIVE的分区、hive关联Hbase、UDF函数

Hive and HDFS 原始数据 //建立hive和Hdfs的外部关联表 CREATE EXTERNAL TABLE people(id int,sex string,name string) par...

2016-03-19 16:50:09

阅读数:2405

评论数:0

HIVE的内部表和外部表

Hive的数据表创建数据文件 inner_table.dat 创建表 hive>create table inner_table (key string); 加载数据 hive>load data local inpath ‘/root...

2016-03-19 16:38:25

阅读数:1029

评论数:0

HIVE的简介

What is Hive Hive是基于Hadoop(HDFS, MapReduce)的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 本质是将SQL转换为MapReduce程序 Why use Hive面临的问题: 1)人员学习成本太高...

2016-03-19 10:25:41

阅读数:511

评论数:0

提示
确定要删除当前文章?
取消 删除