hive
blt328
大家好,我叫BLT,一名技术爱好者,目前从事数据仓库、BI、数据挖掘相关工作。更多技术文章请关注公众号:BLT328
展开
-
7-hive优化
1:按需取数 正确脚本: select id from t_tab; 错误脚本: select * from t_tab; 所以查询数据如果只需要一两个字段,尽量不要用*,如果表为parquet列式存储,能很好的体现性能。 2:在获取含分区的大表数据时,当使用关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤 select a.* from t_ta...原创 2020-04-01 19:53:50 · 252 阅读 · 0 评论 -
1- hive和sqoop组件介绍
Hive:Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统(hadoop)上大数据集的数据仓库软件。 Hive的特点: 1:通过类SQL脚本执行大数据平台数据读取和写入以及数据分析,避免开发人员需要写复杂的mapredurce程序,让数据分析人员专注他们的分析工作。 2:非富的...原创 2019-07-28 23:15:46 · 732 阅读 · 0 评论 -
2- hive元数据与hadoop的关系
大数据平台组件的安装,大家可以先在网上搜索,后期我会出一个安装过程图解,并支持HA的类生产环境的安装。 Hive是构建在hadoop平台上的大数据仓库,方便大数据平台的数据读写和离线计算。为了方便管理hive自己有一套元数据的管理数据库,默认是存放在derby数据库中,不过此方法不适合生产,因为每个用户登录hive都是在本地目录创建元数据信息,不适合统一管理,所以一般生产上我们是放到mysql中...原创 2019-08-04 22:20:55 · 540 阅读 · 0 评论 -
3- hive语法
1.创建内部表和外部表。 内部表和外部表的区别是,内部表在删除表后,会对表存储所在的数据目录也做删除操作,外部表删除后则不会删除数据所在的目录。 外部表语法: drop table if exists t_abc_dept; create external table t_abc_dept ( dept_id int comment '机构id ', d...原创 2019-08-25 20:53:05 · 152 阅读 · 0 评论 -
4- sqoop语法
Sqoop的安装很简单,直接解压配置相关hdfs信息,另外一个重要的是与关系库的驱动包,如果是oracle则要ojdbc14.jar,classes12.jar包,如果是mysql则要mysql-connector-java-5.1.32-bin.jar,为了方便大家下载可以直接到下面地址下载后,放到sqoop安装的lib目录下。 百度网盘:https://pan.baidu.com/s/17b...原创 2019-08-25 20:54:08 · 156 阅读 · 0 评论 -
5- ABC迁移大数据1
从这部份开始,我们整体从ABC的ORACLE环境,迁移到大数据的HIVE环境,并且让系统自动调度,定时进行数据的计算。 本节我们迁移基础表的数据,主要是构建我们的ODS数据同步,另一个是逻辑的迁移,主要是从ORACLE的语法,迁移到HIVE的语法。 ABC迁移大数据仓库架构图: 本节具体脚本可以参见:https://github.com/blt328/abc_hive 1.表结构迁移见...原创 2019-09-01 22:00:43 · 209 阅读 · 0 评论 -
6- ABC迁移大数据2
1.存储过程迁移方法: 存储过程的迁移我们直接用单个的HQL脚本里进行逻辑的迁移,需要注意的点是,在过程里有一些不需要落地的临时表(先delete再insert),以及最终的结果表需要落地(先delete再insert)。如下图: 在HQL脚本里,临时表(删除表后再重建表),结果表覆盖方式重写指定分区数据(overwrite)。如下图: 2.包迁移方法: 包的迁移,我们可以理...原创 2019-09-22 09:40:48 · 190 阅读 · 0 评论