hive
数据的星辰大海
简单地做自己,踏实的做事情
展开
-
Hive表导出成csv文件
hive导出CSV文件hive -e "set hive.cli.print.header=true; #将表头输出 select * from data_table where some_query_conditions" | sed 's/[\t]/|!?|/g' > hivefile.csvset hive.cli.print.header=true将表头输出;sed ‘s/[\t]/,/g’ 将\t替换成|!?|将shell里打印的内容输出到文件...原创 2020-08-12 15:19:14 · 932 阅读 · 0 评论 -
hive创表后,查看表注释是乱码的
问题:hive创表后,查看表注释是乱码的DROP TABLE IF EXISTS test;CREATE TABLE IF NOT EXISTS testdb.test(COMPANYNAME VARCHAR(400) COMMENT '请求的公司名称',CYM VARCHAR(400) COMMENT '请求公司的曾用名',SHIXINID VARCHA...原创 2020-02-17 20:55:02 · 435 阅读 · 0 评论 -
Hive总结篇及Hive的优化
概述Hive学习也有一段时间了,今天来对Hive进行一个总结,谈谈自己的理解,作者还是个小白,有不对的地方请大家指出相互学习,共同进步。今天来谈一谈什么是Hive,产生背景,优势等一系列问题。什么是Hive老规矩:官网地址Hive wiki.先来谈谈自己的理解:有些人可能会说Hive不就是写SQL的吗,那我们其实可以从另一个角度来理解:Hive就是那么强大啊,只要写SQL就能解决问题,...转载 2019-11-27 17:12:29 · 120 阅读 · 0 评论 -
hive优化
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select … from...原创 2019-11-27 15:58:26 · 115 阅读 · 0 评论 -
hive数据仓库和mysql的区别
hive和mysql的区别什么是hiveHive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。hive和mysql不同点1、hive是数据...原创 2019-05-24 15:10:49 · 2643 阅读 · 0 评论 -
数据仓库的分层
数据仓库的四个层次复制层(SSA,system-of-records-staging-area):SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。原子层(SOR,system-of-record):SOR ...原创 2019-06-05 11:39:49 · 1154 阅读 · 0 评论