HIVE(数据库仓库工具)
文章平均质量分 51
HIVE(数据库仓库工具)
涂作权的博客
To do what I want to do!
展开
-
13.107.最全的Hive 优化方案汇总:临时参数的作用域、切分大文件、合并小文件、设置 Map 和 Reduce 的内存大小、设置 Map 和 Reduce 的堆大小设置 等
13.107.最全的Hive 优化方案汇总:1.1.8. 临时参数的作用域:1.1.10.切分大文件1.1.11.合并小文件1.1.12.设置 Map 和 Reduce 的内存大小1.1.13.设置 Map 和 Reduce 的堆大小设置1.1.14.开启Combiner功能:在map端预聚合1.1.15.拓扑图,优化并行执行1.1.16. 万能方法1:一个MR,拆成多个(即纵向拆分),为了降低数据倾斜的压力。【比较少用】原创 2023-08-31 15:05:15 · 1043 阅读 · 0 评论 -
hive sql之:最大登录天数,获取连续登录指定天数
create table test2( id string, pday string);INSERT INTO test2(id,pday) values ('A','20190701');INSERT INTO test2(id,pday) values ('A','20190702');INSERT INTO test2(id,pday) values ('A','20190703');INSERT INTO test2(id,pday) values ('A','20190704'原创 2021-07-29 10:54:08 · 539 阅读 · 0 评论 -
hive中存Array类型的数据的案例,将字符串的数组格式转成数组的字符串,自定义函数方式处理‘[12,23,23,34]‘字符串格式的数据为array<int>格式的数据。
1、创建表带有Array的表:create table t_afan_test(info1 array<int>,info2 array<string>)ROW FORMAT DELIMITEDFIELDS TERMINATED BY '\t'COLLECTION ITEMS TERMINATED BY ',';2、插入数据:insert into t_afan_test values (array(12,23,23,34),array("what","are"原创 2021-04-07 19:34:11 · 7972 阅读 · 0 评论 -
HIVE时间戳错误unix_timestamp时间不同环境相差8小时
本文转自:https://blog.csdn.net/leys123/article/details/112665773今天在迁移项目时,发现HIVE中unix_timestamp得到的时间在测试环境和线上环境不一致,相差8小时。遂拿时间转换语句 select from_unixtime(unix_timestamp(), ‘yyyy-MM-dd HH:mm:ss’) ; 去测试环境和线上环境测试:测试环境:同样的命令去线上环境查看:发现确实相差8小时,这是为什么呢?语句都一样,猜测可转载 2021-02-01 15:08:19 · 4113 阅读 · 0 评论 -
手工计算YARN和MapReduce、tez内存配置设置
1.1.HDP YARN MapReduce参数调优建议转自:https://blog.csdn.net/mnasd/article/details/812029081.1.1.RM的内存资源配置,配置的是资源调度相关RM1:yarn.scheduler.minimum-allocation-mb 分配给AM单个容器可申请的最小内存(默认是1G)RM2:yarn.scheduler.maximum-allocation-mb 分配给AM单个容器可申请的最大内存(默认是yarn.nodemanager原创 2020-10-02 01:47:52 · 1222 阅读 · 0 评论 -
6、HIVE JDBC开发、UDF、体系结构、Thrift服务器、Driver、元数据库Metastore、数据库连接模式、单/多用户模式、远程服务模式、Hive技术原理解析、优化等(整理的笔记)
目录:5 HIVE开发5.1 Hive JDBC开发5.2 Hive UDF6 Hive的体系结构6.2 Thrift服务器6.3 Driver6.4 元数据库Metastore6.5 数据库连接模式6.5.1 单用户模式6.5.2 多用户模式6.5.3 远程服务模式7 Hive技术原理解析7.1 Hive工作原理7.2.1 Hive编译器的组成7.2.2 Query Compiler7.2.3新版本Hive也支持Tez或Spark作为执行引擎8 Hive优化5 HIVE原创 2020-05-23 21:55:31 · 1802 阅读 · 0 评论 -
5、HIVE DML操作、load数据、update、Delete、Merge、where语句、基于分区的查询、HAVING子句、LIMIT子句、Group By语法、Hive 的Join操作等
目录:4.2.1 Load文件数据到表中4.2.2查询的数据插入到表中4.2.3将Hive查询的结果存到本地Linux的文件系统目录中4.2.4通过SQL语句的方式插入数据4.2.5 UPDATE4.2.6 Delete4.2.7 Merge4.3.2WHERE子句4.3.4基于分区的查询4.3.5 HAVING子句4.3.6 LIMIT子句4.3.7 Group By语法4.3.7.1简单案例4.3.8 Select 语句和group by子句4.3.8.1 Multi-Gr原创 2020-05-23 21:16:57 · 2095 阅读 · 0 评论 -
4、Hive数据操作,DDL操作,CRUD database,CRUD table,partition,view,index,show命令等
4.1DDL操作4.1.1Create/Drop/Alter/Use Database4.1.1.1Create Database4.1.1.2Drop Database4.1.1.3Alter Database4.1.1.4Use Database4.1.2Create Table4.1.2.1内部表和外部表4.1.2.2Storage Formats4.1.2.3Create内部表,表分区4.1.2.4Create外部表(External Tables)4.1.2.5 Create原创 2020-05-22 11:31:27 · 1082 阅读 · 0 评论 -
Apache Hive JdbcStorageHandler 编程入门指南
以下博文转载自:https://www.iteblog.com/archives/2525.htmlApache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ,这个使得 Hive 能够读取 JDBC 数据源,关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见 《Apache Hive 联邦查询(Query Federa...转载 2020-05-07 17:11:38 · 1334 阅读 · 0 评论 -
Hive开发要知道数据仓库的四个层次设计
数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。1.数据仓库的四个操作ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心...转载 2020-03-10 12:39:39 · 434 阅读 · 0 评论 -
3 Hive的数据类型和文件格式、数据单元、基本数据类型、复合类型、JDBC数据类型、内置运算符和函数、HIVE命令和CLI(命令设置,Resource、命令行操作、批处理模式)、HIVE文件格式
3Hive的数据类型和文件格式等3.1数据单元Databases:命名空间的功能,用于避免表,视图,分区,列的命名冲突,Databases也可以用于增强一个用户或用户组的的安全性。Tables: 具有相同schema数据存储的位置。Partitions:每个表可以拥有一个或多个partitions keys,这些key用于决定数据是如何存储的。Buckets (or Clusters):...原创 2020-01-19 08:43:59 · 1520 阅读 · 0 评论 -
2.4-2.5、Hive整合(整合Spark、整合Hbase)、连接方式Cli、HiveServer和hivemetastore、Squirrel SQL Client等
2.4其它整合2.4.1Hive整合Spark Spark整合hive,需要将hive_home下的conf下的hive_site.xml放到spark_home下的conf目录下。(3台服务器都做相同的配置)[root@bigdata2 spark-2.3.0-bin-hadoop2.7]# cd $HIVE_HOME/conf[root@bigdata2 conf]# cp hive...原创 2020-01-15 01:18:46 · 1113 阅读 · 0 评论 -
Elasticsearch和Hive整合,将hive数据同步到ES中
1 Elasticsearch整合Hive1.1 软件环境Hadoop软件环境Hive软件环境ES软件环境1.2 ES-Hadoop介绍1.2.1 官网https://www.elastic.co/cn/products/hadoop1.2.2 对 Hadoop 数据进行交互分析Hadoop 是出色的批量处理系统,但是要想提供实时结果则颇具挑战。为了实现真正的交互式数据探索,...原创 2019-10-17 10:40:34 · 12530 阅读 · 4 评论 -
函数分类,HIVE CLI命令,简单函数,聚合函数,集合函数,特殊函数(窗口函数,分析函数,混合函数,UDTF),常用函数Demo
1.1. 函数分类1.2. HIVE CLI命令显示当前会话有多少函数可用SHOW FUNCTIONS;显示函数的描述信息DESC FUNCTION concat;显示函数的扩展描述信息DESC FUNCTION EXTENDED concat;1.3. 简单函数函数的计算粒度为单条记录。关系运算数学运算逻辑运算数值计算类型转换日期函数条件函数字符串函数统计函数1.4. 聚原创 2017-06-11 13:40:53 · 958 阅读 · 0 评论 -
Hive分区、分桶操作及其比较(转自:http://blog.csdn.net/epitomizelu/article/details/41911657)
1,Hive分区。 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。下面从转载 2017-06-11 14:46:20 · 612 阅读 · 0 评论 -
Hive基本操作,DDL操作(创建表,修改表,显示命令),DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等
1.Hive基本操作1.1 DDL操作1.1.1 创建表建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type[COMMENT col_comment], ...)] + [COMMENT table_comment] [PARTITIONED BY (col_namedat原创 2017-06-11 16:12:01 · 2224 阅读 · 0 评论 -
Hive常用运算(关系运算)、逻辑运算与数学运算、数值运算、日期函数、条件函数、字符串函数
hive 常用运算第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: = 语法:A=B操作类型:所有基本类型描原创 2017-06-11 17:00:19 · 6270 阅读 · 0 评论 -
HIVE的安装配置、mysql的安装、hive创建表、创建分区、修改表等内容、hive beeline使用、HIVE的四种数据导入方式、使用Java代码执行hive的sql命令
1.上传tar包这里我上传的是apache-hive-1.2.1-bin.tar.gz2.解压 mkdir -p/home/tuzq/software/hive/ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /home/tuzq/software/hive/3.安装mysql数据库(切换到root用户)(装在哪里没有限制,只有能联通hado...原创 2017-06-10 22:11:45 · 5542 阅读 · 0 评论 -
Hive内置运算函数,自定义函数(UDF)和Transform
4.Hive函数4.1 内置运算符内容较多,见《Hive官方文档》4.2 内置函数内容较多,见《Hive官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF测试各种内置函数的快捷方法:1、创建一个dual表create table dual(id string);2、load一个文件(一行,一个空格)到原创 2017-06-13 16:27:24 · 1729 阅读 · 0 评论 -
Hive数据类型(转:https://blog.csdn.net/xiaoqi0531/article/details/54667393)
Hive数据类型本文参考Apache官网,更多内容请参考:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types1. 数值型 1. Integral Types (TINYINT, SMALLINT, INT/INTEGER, BIGINT) 默认情况下,整数型为INT型,当数字大于INT型的...转载 2018-05-24 17:46:07 · 507 阅读 · 0 评论 -
Hive 整合Hbase(来自学习资料--博学谷)
1、摘要Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询、同时也可以将hive表中的数据映射到Hbase中。2、应用场景2.1 将ETL操作的数据存入HBase 2.2 HBase作为Hive的数据源2.3 构建低延时的数据仓库 3、环境准备3.1 hiv...原创 2018-08-08 12:58:36 · 1379 阅读 · 0 评论 -
hive按照某个字段分组,然后获取每个分组中最新的n条数据
hive -e “use db; select t.advertId,t.exposureNum from (select advertId,exposureNum,ROW_NUMBER() OVER(PARTITION BY advertId ORDER BY addTime desc) AS rn FROM tb_advert_flow_money where ftype = 2) t whe...原创 2018-12-19 16:37:14 · 17752 阅读 · 0 评论 -
hive表,hive视图,spark处理数据入mysql,shell获取url数据下载json,Spark sql处理json,shell脚本执行kylin,azkaban任务调度
1 Spark获取json数据,并将json数据存hive库hive表建立Demo--如果存在hive表,直接删除这个hive表。drop table if EXISTS tb_trade_info;--创建hive表(第一次全量,后续增量)CREATE TABLE IF NOT EXISTS tb_trade_info (salesmanId VARCHAR(40) comment ...原创 2019-03-19 09:32:29 · 4127 阅读 · 6 评论 -
Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)
1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.2 为什么使用HiveØ 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大Ø 为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力。 避免原创 2017-06-10 19:28:59 · 10810 阅读 · 0 评论