03 Hive及数仓
Hive
你看我会发光i
大鹏一日同风起,扶摇直上九万里
展开
-
Hive报错:hive:[Fatal Error] total number of created files now is 100009, which exceeds 100000. Killing
hive:[Fatal Error] total number of created files now is 100009, which exceeds 100000. Killing the job.Hive对创建的文件个数是有限制的,默认是100000,这里是超过了限制所以报错了方案一: 加大hive.exec.max.created.filesset hive.exec.max.created.files = 200000;方案二:根据实际情况将Hive任务进行拆分,减小数据量,减少创建.原创 2021-08-18 14:26:55 · 1227 阅读 · 0 评论 -
数据仓库工具箱读书笔记01 基础
文章目录1.1 数据获取与数据分析的区别1.2 数据仓库和商业智能的目标1.3 维度建模简介1.1 数据获取与数据分析的区别信息(或者说是数据)一般有两个目的:记录操作(操作型系统)指定决策(DW/BI系统)操作性系统一般一次只处理一个事务(获取订单 记录问题等), 如果要优化方向在于让其更快的处理事务, 因此不必维护历史数据, 只需要修改数据来反映最新的状态即可DW/BI系统会处理成千上万的事务(本周新订单与过去一周进行比较, 并寻找新客户原因), 如果要优化方向在于让其高性能完成用户的查原创 2020-07-27 13:57:32 · 660 阅读 · 0 评论 -
数据抽取 - 去除mysql的换行或者回车
文章目录1. 问题2. 解决1. 问题因为业务有些情况是需要用户手动输入信息的, 这个给用户的权限非常大, 里面什么特殊字符都是有可能包含进去的, 如果包含换行符 就会造成一行变成两行, 这中问题怎么避免呢?2. 解决我们手动写sql 去除掉特殊字符 然后抽取…selectreplace(replace(replace(comp_name, '|', ''),CHAR(10), ''),CHAR(13),'') as company_namefrom mytablechar(10): 换原创 2020-06-04 10:45:28 · 554 阅读 · 0 评论 -
SQL让某一个值一直放在最后一行
文章目录1. 需求2. 解决2.1 方式一 排序2.2 方式二 合并1. 需求今天做报表,产品侧觉得total的位置应该放在最下面, 乱放不是很好看就像下面:2. 解决2.1 方式一 排序select*from 表where statis_day = %statis_day%order by case when attribute = 'total' then 1 else...原创 2020-04-13 16:34:14 · 2010 阅读 · 0 评论 -
周人天的两种计算方式
假设表中两个字段: 时间 和 用户标识未去重天数/去重人数DAU之和/WAU原创 2020-01-09 16:51:26 · 433 阅读 · 0 评论 -
Hive优化
发原创 2019-12-19 16:00:23 · 1454 阅读 · 0 评论 -
Hive进行数据抽样& 随机抽取
1. 直接抽样-- 原来的50%select * from liyang tablesample(50 percent)-- 30Mselect * from liyang tablesample(30M)-- 200行 每个map200行select * from liyang tablesample(200 rows)2. 分桶抽样Hive中的分桶表(Bucket Tab...原创 2019-12-18 16:28:52 · 2917 阅读 · 0 评论 -
Hive书写正则表达式
1. RLIKE先引入文档中的一段话NULL if A or B is NULL, TRUE if any (possibly empty) substring of A matches the Java regular expression B, otherwise FALSE. For example, 'foobar' RLIKE 'foo' evaluates to TRUE and ...原创 2019-12-18 15:32:27 · 632 阅读 · 0 评论 -
Hive&Mysql&Oracle类型转换
to_number原创 2019-12-17 16:24:38 · 1971 阅读 · 0 评论 -
Mysql实现开窗函数
原始oracle代码select row_number() over(partition by a.statis_day,a.app_version order by to_number(a.all_consume/a.cnt) desc) as rnfrom( select statis_day ,app_version ,cast(action_consume+gl_cons...原创 2019-12-17 12:58:16 · 644 阅读 · 0 评论 -
Hive&Mysql开窗函数
SUM AVG MIN MAXSELECT id,date_time,pv,-- 从第一行到当前行进行sumSUM(pv) OVER(PARTITION BY id ORDER BY date_time) AS pv1,-- 从第一行到当前行进行sumSUM(pv) OVER(PARTITION BY id ORDER BY date_time ROWS BETWEEN UNBOU...原创 2019-12-16 18:01:40 · 781 阅读 · 0 评论 -
Hive取整 或者说 四舍五入
大于等于SQL> select ceil(23.33) from dual;24小于等于SQL> select floor(23.33) from dual;23四舍五入SQL> select round(23.33) from dual; -- round(x,[y])23截断SQL> select trunc(23.33) from ...原创 2019-12-16 15:12:31 · 3209 阅读 · 0 评论 -
cube rollup 和 grouping sets合计
cubeselect if(grouping(a)=1, 'ALL', a) as a,if(grouping(b)=1, 'ALL', b) as b,count(1)from 表名group bycube(a, b)等价于select 'ALL' as a,'ALL' as b,count(1) from 表名 -- 整体进行聚合union allse...原创 2019-12-16 14:05:30 · 136 阅读 · 0 评论 -
Hive解析 字符串和json串
解析字符串-- A23=02001&A5=591&A33=CTRadstr_to_map(字段名,'&','=')['参数名'] as x原创 2019-12-16 13:46:56 · 471 阅读 · 0 评论 -
hive配置文件
数据仓库在本地地址 hive.metastore.warehouse.dir /usr/hive/warehouse数据库连接地址 javax.jdo.option.ConnectionURL jdbc:mysql://localhost/hive_db?createDatabaseIfNotExist=true数据库转载 2017-12-14 20:08:12 · 478 阅读 · 0 评论