小小良

程序人生

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hadoop – 如何将数据插入Hive中的Parquet表

Hive中的Parquet表本质是一种被压缩了的二进制文件,不方便对其进行操作编辑 方法一:(针对数据量不大时) 优点:方便、快捷 insert into table TABLE_NAME1 partition(dt="2019-09-05") select 32451...

2019-09-06 18:15:47

阅读数 41

评论数 0

开发大全、系列文章、精品教程

进大厂,身价翻倍的法宝来了! 主讲内容:docker/kubernetes 云原生技术,大数据架构,分布式微服务,自动化测试、运维。 教程网站:http://www.data-master.net/ ...

2019-08-28 10:44:39

阅读数 13

评论数 0

hdfs中的数据离线校核

一、将目标数据拉取到本地 1、将目标数据筛选后转到Liunx系统文件中 hdfs dfs -text /backup/dataflow/20190822/* | grep "mwapp" > mwapp.log ## 1、先查询指定日期下的所有数据,2、通过...

2019-08-23 15:44:00

阅读数 20

评论数 0

将本地文件数据导入hive表中(通用方法)

重要说明: 1、本地文件理论上可以是任意格式的数据(.txt , .json , 字符串...) 2、过程完全可以复用(同种类型问题) 数据源示例:json格式数据 [ { "cityId": 19, "cityNam...

2019-08-21 17:57:50

阅读数 25

评论数 0

Hive优化

Hive优化 一、Hadoop 计算框架的特性 1、什么是数据倾斜 由于数据的不均衡原因,导致数据分布不均匀,造成数据大量的集中到一点,造成数据热点。 2、Hadoop框架的特性 不怕数据大,怕数据倾斜 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,...

2019-08-21 14:30:56

阅读数 11

评论数 0

Hive Shell操作

Hive Shell操作 一、Hive Shell 基本操作 1、Hive 命令行 hive [-hiveconf x=y]* [<-ifilename>]* [<-f filename>|<-e query-string...

2019-08-21 14:23:59

阅读数 8

评论数 0

HiveQL

HiveQL 一、DDL 1、DDL功能建表 删除表 修改表结构 创建/删除视图 创建数据库 显示命令 增加分区、删除分区 重命名表 修改列的名字、类型、位置、注释 增加/更新列 增加表的元数据信息 2、建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] ...

2019-08-21 14:17:12

阅读数 8

评论数 0

Hive高级编程 -- UDF

Hive高级编程 一、产生背景 为了满足客户个性化的需求,Hive被设计成一个很开放的系统,很多内容都支持用户定制,包括: 文件格式:Text File,Sequence File 内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text...

2019-08-21 14:05:50

阅读数 20

评论数 0

Hive参数

Hive参数 hive.exec.max.created.files 说明:所有hive运行的map与reduce任务可以产生的文件的和 默认值:100000 hive.exec.dynamic.partition 说明:是否为自动分区 默认值:false hive.mapred.reduc...

2019-08-21 13:56:14

阅读数 13

评论数 0

Hive JDBC

Hive JDBC 1、 基本操作对象的介绍 1、Connection 说明:与Hive连接的Connection对象 Hive的连接 jdbc:hive://IP:10000/default“ 获取Connection的方法 DriverManager.getConnection(&q...

2019-08-21 13:48:01

阅读数 9

评论数 0

Hive内建操作符与函数开发

Hive内建操作符与函数开发 1、 关系运算符 等值比较: = 不等值比较: <> 小于比较: < 小于等于比较: <= 大于比较: > 大于等于比较: >= 空值判断: IS NULL 非空判断...

2019-08-21 13:42:49

阅读数 10

评论数 0

Hive的安装部署、配置及实践操作

在此强调:Hadoop,zookpeer,spark,kafka,mysql已经正常启动 一、开始安装部署hive 基础依赖环境: 1,jdk 1.6+ 2, hadoop 2.x 3,hive 0.13-0.19 4,mysql (mysql-connector-jar) 安装详细如下...

2019-08-21 11:59:59

阅读数 9

评论数 0

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Pig介绍 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive。:) Pig是一种数据流语言,用来快速轻松的处理巨大的...

2019-08-21 11:34:07

阅读数 15

评论数 0

Sqoop最佳实践

https://www.jianshu.com/p/be33f4b5c62e

2019-08-20 17:10:23

阅读数 8

评论数 0

Pig基本语法项目实战

Pig简介 Apache Pig是一个高级过程语言,适合使用Hadoop和Mapreduce平台来查询大型半结构化数据,当Pig处理数据时,Pig本身 会在后台生成一系列得MapReduce操作来执行任务,这个过程对用户来说是透明的。 用于执行Pig Latin程序的执行环境,当前有两个环境...

2019-08-20 17:01:26

阅读数 11

评论数 0

HBase的详细介绍(概念以及特性)

1 什么是hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。 HB...

2019-08-20 16:43:39

阅读数 59

评论数 0

高可用Hadoop平台-Hue In Hadoop

1.概述   前面一篇博客《高可用Hadoop平台-Ganglia安装部署》,为大家介绍了Ganglia在Hadoop中的集成,今天为大家介绍另一款工具——Hue,该工具功能比较丰富,下面是今天为大家分享的内容目录: Hue简述 Hue In Hadoop 截图预览   本文所使用的环境是...

2019-08-20 16:24:27

阅读数 18

评论数 0

大数据开发总体结构图

Hadoop家族学习路线图 Hadoop重要组件及常用组件: 重要组件: 常用组件:

2019-08-20 16:12:25

阅读数 21

评论数 0

HCatalog入门与使用

1 HCatalog简介 1、什么是HCatalog HCatalog是Hadoop的表存储管理工具。它将Hive Metastore的表格数据公开给其他Hadoop应用程序。使得具有不同数据处理工具(Pig,MapReduce)的用户能够轻松将数据写入网格。它确保用户不必担心数据存储在何处或...

2019-08-20 16:01:59

阅读数 8

评论数 0

Ambari架构及源码结构分析

Ambari介绍 Ambari是hadoop分布式集群配置管理工具,是由hortonworks主导的开源项目。它已经成为apache基金会的孵化器项目,已经成为hadoop运维系统中的得力助手,引起了业界和学术界的关注。 1、Ambari架构源码解析 2、ambari使用最全面解析 ...

2019-08-20 15:40:11

阅读数 11

评论数 0

提示
确定要删除当前文章?
取消 删除