hive学习之路
文章平均质量分 52
炽天使YRLT
这个作者很懒,什么都没留下…
展开
-
大数据业务场景
2、 借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;2,计算:借助mapreduce计算框架对原始数据进行转换,生成的数据以分区表形式。3、 需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;5、 需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用。1,上传:通过Hadoop先将原始数据同步到HDFS上;4、 将明细数据进行复杂的统计分析,得到结果报表信息;1、 通过Hadoop先将原始数据同步到HDFS上;...原创 2022-08-03 22:00:04 · 558 阅读 · 0 评论 -
hive语法
1.修改表名2.修改列名或则3.增加列4.替换,就是把原本的列都删除掉,替换成所写的新列。原创 2022-08-02 17:37:10 · 306 阅读 · 0 评论 -
hive数据导出
从普通表将数据插入到分桶表(原创 2022-08-02 17:08:12 · 464 阅读 · 0 评论 -
hive数据导入导出
---------------数据导入导出------------------------------ 创建表: CREATE TABLE IF NOT EXISTS userses( name string, sex string ) row format delimited fields terminated by'\t'; CREATE TABLE IF NOT EXISTS user_tmp( name string, sex string ) partitioned by(age int) ro原创 2022-05-06 14:38:03 · 3498 阅读 · 0 评论 -
hive的性能优化
join优化 set hive.optimize.skewjoin=true;如果join过程出现数据倾斜,就设置为true set hive.skewjoin.key=100000;这个是join的key对应的记录条目数超过这个值的时候会进行优化 map端join: set hive.auto.covert.join=true; hive.mapjoin.smalltable.filesize 默认是25m **map端join使用场景:** (1)关联操作中有一个表非常小 (2)不等值的链接操作 b原创 2022-04-27 14:08:39 · 564 阅读 · 0 评论 -
hive数据分析003-transform应用
transform Hive 的 TRANSFORM 关键字提供了在 SQL 中调用自写脚本的功能。适合实现 Hive 中没有的 功能又不想写 UDF 的情况,脚本一般都是python写的。 二、案例操作 1.数据文件内容 vi transform.txt steven:100;steven:90;steven:99^567^22 ray:90;ray:98^456^30 Tom:81^222^33 2.清洗后到数据库的数据格式如下: steven 100 567 22 steven原创 2022-04-26 16:14:45 · 704 阅读 · 0 评论 -
hive数据分析002-分桶
hive分桶原创 2022-04-21 16:11:48 · 1378 阅读 · 0 评论 -
hive数据分析-002
动静态分区原创 2022-04-17 15:20:53 · 1933 阅读 · 0 评论 -
hive数据分析-001
hive数据分析原创 2022-04-14 17:03:20 · 1370 阅读 · 0 评论