Hive专栏。
文章平均质量分 76
日常记录学习到的有关Hive的知识以及遇到的问题和解决方案。
啊帅和和。
大数据小白,逐渐进阶。
展开
-
hivesql解析json格式的key与value
目录解析json格式中的key解析json格式中的valuejson格式示例:{“city_code”:“340100”,“county_code”:“340111”,“orientation”:“东”,“road_id”:35204271,“speed”:35.72}解析json格式中的key我们可以看到这个数据还是很规整的,首先先将这个json数据中的花括号:“{}”给去除,并将逗号:“,”也都给替换成冒号:“:”,双引号也给剔除,之后进行行列转换,选取需要的1、剔除双引号、花括号selec原创 2022-01-13 11:19:16 · 6988 阅读 · 2 评论 -
使用hiveSQL分离字符串中的字符和数字
目录0-需求1-数据分析2-总结0-需求如果数据中存在字符和数字混在一起的情况且放在一列中,此时需要将其中的数字数据和字符数据分开,分别单独成为一列,应该怎么做?如下数据:FLINK434354HADOOP67889HBASE500019KAFKA15999SQOOP13332HELLO57000SPARK13000需要将中文名称和数字单独提取出来,得到如下结果FLINK 434354HADOOP 67889HBASE 500019KAFKA 15999SQOOP 1333转载 2022-01-12 11:56:53 · 2669 阅读 · 2 评论 -
Hive小问题记录->卡在提交JOB,无map与reduce任务出现->释放资源解决
今天在运行一个hivesql的时候,整体的运行总是卡在这个阶段,没有map任务出现,也没有reduce任务出现,但是在不涉及mapreduce任务的sql都可以查询出来结果整体也只有这一个application在运行,其余的运行任务,也都通过“yarn application -kill application_id”给终结了整体的环境也没有任何问题后来通过命令发现是整体的datanode磁盘使用过多,也有很多的垃圾文件没有来得及回收,这里删除一部分hdfs的文件,就可以正常运行了。感谢阅读,原创 2022-01-12 11:23:00 · 1216 阅读 · 0 评论 -
regexp_replace()、translate()、replace()对比
Hive中并无replace函数,只有两个类似的函数来实现字符串的替换功能目录regexp_replace()使用regexp_replace()统计字符串中字符出现的个数sql中的translate()与replace()的对比translate()replace()regexp_replace()语法:regexp_replace(string A,string B,string C)返回值:string说明:将字符串A中的符合Java正则表达式的B的部分替换为C使用regexp_repla原创 2022-01-11 10:41:49 · 2690 阅读 · 0 评论 -
Hivesql中的explode()与posexplode()函数,夹带lateral view()
目录later viewexplode()与posexplode()later viewlateral view的语法:lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (’,’ columnAlias)fromClause: FROM baseTable (lateralView)描述:lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对原创 2022-01-10 17:58:39 · 2403 阅读 · 0 评论 -
spark整合hive
加上依赖idea中配置有关spark整合hive的依赖,让idea在本地可以用spark的环境操作hive修改shell中的配置文件spark-sqlspark-sql --master yarn-client 不能使用yarn-cluster可以整合hive 使用hive的元数据1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务<property> <name>hive.metas原创 2021-11-17 21:30:31 · 1777 阅读 · 0 评论 -
HiveSQL题目组一(1.2.1版本)
建表语句:员工信息表emp:字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNOcreate table emp(EMPNO int,ENAME string,JOB string,MGR int,HIREDATE string,SAL int,BONUS int,DEPTNO int)row format delimitedfields terminate原创 2021-10-02 17:36:49 · 230 阅读 · 1 评论 -
HiveSQL小练习--求连续消费的天数
数据格式:1 2019-02-08 6214.231 2019-02-08 6247.321 2019-02-09 85.631 2019-02-09 967.361 2019-02-10 85.691 2019-02-12 769.851 2019-02-13 943.861 2019-02-14 538.421 2019-02-15 369.761 2019-02-16 369.761 2019-02-18 795.151 2019-02-19 715.651 2019-02-原创 2021-10-01 20:15:27 · 404 阅读 · 0 评论 -
Hive详细概述
目录为什么要用Hive什么是HiveHive的概念架构Hive的搭建Hive的简单实用为什么要用Hive什么是HiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和原创 2021-10-01 14:12:44 · 2316 阅读 · 0 评论 -
Hive异步求和
Hive调优-数据倾斜优化问题抛出:比如这里有100万的数据,99万的a,1万的b,最终到reduce阶段,相同的处理能力,一个处理99万,一个处理1万,最后处理的效率肯定是不相同的,会产生数据倾斜。随机数怎么打:(也可以直接打在后面做字符串的拼接,然后再去掉)思路1,数据倾斜解决看下key的分布处理集中的key原因1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候2)、数据重复,join 笛卡尔积 数据膨胀表现任务进度长时间维持在99原创 2021-10-08 20:21:54 · 296 阅读 · 0 评论