hive
侠客刀
简单,清晰,高效
展开
-
记录一次生产环境丢数问题
描述:突然某天凌晨收到企业微信,电话,短信,轰炸式的报警,某个关联销售数据计算转化的应用层数据某个小时分片数据缺数(0条)过程:基于以上问题,先去看了调度器的任务,没出问题,再去上一层DW表有数,看看维度表是否被人删了(一般不可能),然而有数并没啥问题,,,有点怀疑人生,又看了一轮,流式任务正常,kafka正常,flume正常,dw层正常,还奇怪啊,订单数据也正常但是spark任务跑的很稳定并无报销,奇怪啊,遇到什么灵异事件了啊,查看了yarn日志没报错,会不会是磁盘坏了,验证没问题啊,,,,基本是能想到原创 2022-03-04 19:08:54 · 1172 阅读 · 0 评论 -
ls: 无法访问/opt/module/spark-2.4.7-bin/lib/spark-assembly-*.jar: 没有那个文件或目录
ls: 无法访问/opt/module/spark-2.4.7-bin/lib/spark-assembly-*.jar: 没有那个文件或目录vim hive将/lib/spark-assembly-*.jar`替换成/jars/spark-*.jar`,就不会出现这样的问题 sparkAssemblyPath=`ls ${SPARK_HOME}/jars/spark-*.jar`原创 2021-03-11 15:33:46 · 434 阅读 · 0 评论 -
hive中操作hdfs命令
版本:Hadoop 2.7.4– 查看dfs帮助信息[root@hadp-master sbin]# dfsUsage: dfs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PA原创 2020-10-10 13:50:33 · 4080 阅读 · 0 评论 -
hive存储格式大白话解析
一、两种存储格式1.行存储:以行为单位进行存储的格式。逻辑上可以假设为一座高楼大厦每一层为一行。那么这栋楼会特别高,但是比较窄。2.列存储:以行为单位进行存储的格式,逻辑上可以假设为一座高楼大厦每一层为一列,那么这栋楼会比较低,但是比较宽。二、优缺点1.行存储:**TEXTFILE SEQUENCEFILE**行存储的写入是一次性完成,消耗的时间比列存储少,并且能够保证数据的完整性;缺点是数据读取过程中会产生冗余数据,如果只有少量数据,此影响可以忽略;数量大可能会影响到数据的处理效率。比如:我原创 2020-09-30 16:28:11 · 140 阅读 · 0 评论 -
spark整合hive配置
spark整合hive配置spark整合hive配置1.hive环境配置完成,略~~2.JAR包3.hive-site.xml4.测试spark整合hive配置1.hive环境配置完成,略~~2.JAR包cp {HIVE_HOME}/lib/mysql-connector-java-5.1.44-bin.jar {SPARK_HOME}/jars/cp {HIVE_HOME}/conf/hive-site.xml {SPARK_HOME}/conf3.hive-site.xml编辑{SPAR原创 2020-09-27 15:27:01 · 368 阅读 · 0 评论 -
hive调优之map task数量
第一步:根据输入文件超过mapred.max.split.size大小的,以block为单位(block的倍数)切分成不小于mapred.max.split.size大小的split。如果切分下来的大于mapred.min.split.size.per.node大小则生成一个split第二步:每个rack1上切分下的碎片进行合并,如果长度超过mapred.max.split.size时生成一个s...原创 2020-03-03 16:05:37 · 1971 阅读 · 0 评论 -
hive transform
hive transform python语法select transform( sessionid, datajson, ods_day ) using './pyenv.sh getVal.py' as ( sessionid, datajson, ods_day ) from dou...原创 2020-03-02 19:09:59 · 382 阅读 · 0 评论 -
每个部门的每月盈利占当月总金额的比率hql实现
需求:部门表bm:部门id,每月,每月盈利金额求每个部门的每月盈利占当月总金额的比率。hql实现create table bm (id String,month int,money int)row format delimited fields terminated by ','location '/warehous/bm';A 7 30B 7 100A 8 20A ...原创 2019-07-04 23:36:05 · 372 阅读 · 0 评论 -
sql找出更改后的利率值
id string,//利率的类型times date,//更改时间val string//利率值//外部表create external table rate_w(id string,times date,val string)row format delimited fields terminated by ','location '/warehouse/rate';...原创 2019-07-03 00:08:28 · 294 阅读 · 0 评论 -
企业中hive定时执行的脚本-每天生成日志
#!/bin/bashAPP=gmallhive=/opt/hive/apache-hive-1.2.2-bin/bin/hiveif [-n $1] ;then do_data=$1else do_data=`date -d "-1 day" +%F`fisql="select js_id,sum(case zj when 1 then 1 end) zhouy...原创 2019-07-02 08:54:16 · 2690 阅读 · 0 评论 -
hive的case when的操作
hive元数据/root/test//各个字段的表示:教师id 周几 表示有课js_id zj yk1 2 有1 1 有1 4 有1 4 有2 2 有3 1 有2 2 有3 1 有4 4 有5 4 有6 2 有结果数据---->教师id 周一 周二 周三 周四 周五1 1 1 NULL 2 NULL2 NULL 2 NULL NULL NULL3 2 ...原创 2019-06-22 23:45:37 · 1917 阅读 · 0 评论 -
hive统计店铺每个月的营业额以及到当目前的历史累计额
--------数据名称,月份,资金a,01,150a,01,200b,01,1000b,01,800c,01,250c,01,220b,01,6000a,02,2000a,02,3000b,02,1000b,02,1500c,02,350c,02,280a,03,350a,03,250----建表create table t_store(name strin...原创 2019-05-23 17:35:38 · 2947 阅读 · 0 评论 -
python爬虫-之前接的一家长租公寓的项目
长租公寓项目项目描述:公司想通过目前中国长租公寓的信息,比如:长租公寓品牌(比如自如、蛋壳、优逸客家等多个品牌)、房源位置(这里具体到省、市、区、小区名),房源个数,房屋设备、位置优势、租房价格等,去分析不同公寓品牌在不同城市的服务情况。从而去决策租房的消费情况和各个品牌的一个个走势。最终以热力图、折线图等呈现出来。项目流程:1.从网上抓取各个品牌的f房源信息2.进行数据预处理、清洗、去...原创 2019-02-25 10:42:40 · 238 阅读 · 0 评论 -
Hive的UDTF开发实例.md
案例:实现输入两个参数分别为开始日期(日期为6位数YYYYMM),输出开始时间和结束时间之间每隔12月的周期计数+1.例如:输入: UDT_10(‘20170201’,‘20321001’)输出:±--------±------+| col1 | col2 |±--------±------+| 201702 | 0 || 201703 | 0 || ...原创 2018-09-26 14:15:42 · 636 阅读 · 0 评论