Hive
我叫龙翔天翼
广告,推荐,AI算法,hive, spark
展开
-
HIve 分析和窗口函数 WindowingAndAnalytics
HIve 分析和窗口函数 WindowingAndAnalytics常见的GROUP BY 和 DISTRIBUTE BY 等语句并不能支持诸如分组排名、滑动平均值等计算,原因是 GROUP BY 语句只能为每个分组的数据返回一条记录,而非每条数据一行。但是,Hive 0.11之后引入了窗口查询功能,使用 WINDOW 语句我们可以基于分区和窗口,在实现分组分析的目的的同时,为每条数据都生成一行...原创 2019-04-27 12:31:25 · 406 阅读 · 0 评论 -
随笔记录
堡垒机上 Mysql数据导出 :mysql -hgatelf2.jed.jddb.com -P3358 -udata_mill_rw -pKC4sZLf6RXTSPGwL -D data_mill -e “SELECT * FROM super_brand_info” >test.csv原创 2019-02-22 18:09:53 · 175 阅读 · 0 评论 -
Hive表类型及使用技巧-拉链表
拉链表一、数据加工和维护概念:所谓拉链表就是记录一个事物从开始 一直到当前状态的所有变化信息;通过比较,记录数据的生命周期,能够快速还原任意天的历史快照,而非全量的每天记录所有数据,因此极大节省了存储。一般表名后面xxx_chain数据加工方式:(1)拉链表中一般会存在一个字段“start_date”表示该记录的起始时间,不代表创建时间,非业务时间。一把会存在"createtime"...原创 2019-04-29 10:39:56 · 3706 阅读 · 0 评论 -
Hive优化
一、hive表重新合并小文件merge_file="set mapreduce.input.fileinputformat.split.maxsize=268435456;set mapreduce.input.fileinputformat.split.minsize.per.node=268435456;set mapreduce.input.fileinputformat.split...原创 2019-04-25 10:43:31 · 224 阅读 · 0 评论 -
Shell 相关
一、每天删除历史数据:hive表和hdfs数据删除180天前(该天)的数据#!/bin/bashcurr_date=`date -d "-1 day ${1}" +%Y-%m-%d`echo 'current date: ' ${curr_date}target_date=`date -d "${curr_date} 180 days ago" +%Y-%m-%d`echo 'tar...原创 2019-07-04 13:56:55 · 226 阅读 · 0 评论