![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
初学——HIVE
文章平均质量分 82
学习笔记
cody_cat
这个作者很懒,什么都没留下…
展开
-
经验记录-上亿数据量操作与最长匹配
一.用户需求: 统计一批号码21年在指定业务的结算费用、条数、用户数。 二.提数思路: 循环2021年1到12月表,在源表按指定条件抽取1到11月的号码、费用、月份字段,存入TMP表PHONE_NO, FEE, YEAR_MONTH;备注:当前为12月还未进行结算,故数据仅统计到11月,11月数据有部分在12月表中,故需要循环12个月。 由于一个号码在一个月中有多条数据,所以对TMP表数据按月按号码分组汇总,并统计条数cnt,得到TMP0表。备注:TMP约8亿,TMP0约5亿数据量。 用户提供的国家原创 2021-12-28 18:00:39 · 412 阅读 · 0 评论 -
初学HIVE(三)——基础应用
一、数据库操作语句 操作内容 操作语句 说明 创建1 create database my_hive; HDFS上的默认存储路径是/user/hive/warehouse/*.db 创建2 create database if not exists my_hive; 避免该库已存在导致建库报错 创建3 create database my_hive location ‘/settment.db’; 指定创建数据库在HDFS的位置 查看1 show databases; 查看原创 2021-12-15 14:54:03 · 167 阅读 · 0 评论 -
初学HIVE(二)——数据类型
HIVE数据类型可以进行隐式转换,但不支持反向转化且会报错,除非使用CAST操作原创 2020-07-13 17:32:03 · 535 阅读 · 0 评论 -
初学HIVE(一)——初步认识HIVE
Hive是基于Hadoop的数据仓库工具,可以**将结构化的数据文件映射为一张表**,并提供**类SQL**查询功能。本质是将HQL转化成MapReduce程序,存储的基础数据在HDFS上,执行程序运行在Yarn上。原创 2020-07-09 14:28:01 · 277 阅读 · 0 评论