- 博客(27)
- 收藏
- 关注
转载 数据仓库之维度建模
1. 复制层(SSA,system-of-records-staging-area)SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。2. 原子层(SOR,system-of-record...
2019-05-11 12:00:39 689
原创 hive 分区表增加字段 及其它操作
对现有的分区表修改表结构:比如现有3个分区,你现在在MDM里增加一个字段,这时这个表里有4个表结构,3个分区的+现在的。如果想更新分区表里的数据,需要先删除分区,insert overwrite 不顶用。存疑。。。。。ref:https://blog.csdn.net/xiao_jun_0820/article/details/45560591https://blog...
2019-03-19 19:38:52 2859
转载 pro、pre、test、dev环境
一开始,你可能觉得你只需要一个环境,well, at most two: 一个Dev环境(aka ur PC) + one server. 但是随着项目的发展,可能需要更多的环境,那它们是什么,又有什么用处呢?1. 环境的定义Environment – In hosted software (eg web site/application, database not shrinkwrap s...
2019-02-21 17:40:54 963
转载 hive中的in /exists, not in / not exists
in的改写考虑以下 SQL 查询语句:SELECT a.key, a.value FROM aWHERE a.key in (SELECT b.key FROM B);可以改为:SELECT a.key, a.valueFROM a LEFT OUTER JOIN b ON (a.key = b.key)WHERE b.key <> NULL;一个更高效...
2019-02-13 17:59:35 16065
原创 hive中的null
hive表:select * from tmp.zsh_test1;c1 c2 c3 c4 c5 c6 topicdate11 12 13 NULL NULL NULL 2018-09-0121 22 23 NULL NULL NULL 2018-09-0231 32 ...
2019-02-13 16:58:19 190
转载 SQL强化训练经典50题 及hive版
--1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tname) --T 教师编号,Tname 教师姓名--4.成绩表 SC(S,C,score) ...
2019-02-12 17:27:32 1431
原创 hive OutOfMemoryError: Java heap space
报错:1. RuntimeException: java.lang.OutOfMemoryError: Java heap space2. Container exited with a non-zero exit code 255 尝试: 1. set mapreduce.input.fileinputformat.split.maxsize=5000000...
2019-01-29 15:51:14 1408
原创 记一次报错
执行mail_monitor_tool_sd任务时:查看data_tool_daily.ini文件,发现第一行多了个空白行,显示字符,也没有发现除了换行符以外的东西,用ultraedit查看,十六进制显示,发现多了EF BB BF,而且还删不掉。最后解决办法:新建一个文本,把诡异字符之后的东西复制进去,覆盖原文件。网上搜了一下,据说是UTF-8编码的文件,开头加入了BOM来表明编码...
2019-01-29 15:34:44 232
转载 sql的执行顺序 & 为什么group by后面不能使用列的别名
Sql语句执行顺序(1)FROM <left_table>(2)ON <join_condition>(3)<join_type> JOIN <right_table>(4)WHERE <where_condition>(5)GROUP BY <group_by_list&...
2019-01-29 15:30:24 1456 1
转载 hive命令行中显示列名字段的配置
显示列名set hive.cli.print.header=true;(或者 hive --showheader = true)但是显示列名以后,又出现表名+列名的显示方式,可读性不好。set hive.resultset.use.unique.column.names=false; 因为在cli中set配置属性只是当次有效,如果想永久配置的话,将上述命令配置到hive/c...
2019-01-29 15:17:23 1068
转载 hive 动态分区
语法:SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstrict;如使用动态分区的方式,一次性插入大量数据,将会出现以下错误数据会先分配到40个reducer上, 再插入到分区表中如何修改分区表的字段?Alter table xxx drop pa...
2019-01-29 15:11:02 558
转载 机器学习之支持向量机 svm for beginners
为什么叫支持向量机?先说Machine。SVM95年发表的时候叫Support Vector Network,为了和神经网络撇清关系,在98年改Network为Machine。再说Support Vector。比如为了找一条线分开下图的猫和狗,我们能找到很多这样的线,但是哪一条才是最优的呢? 直观地看,我们只需要考虑几个特殊的点(红圈),这几个点之间的线基本都能分开全部的猫和狗...
2019-01-28 18:29:42 333
原创 hive 优化实践 案例2
背景:任务topic#report_hw_page_uv_stat#v1凌晨5点高峰期消耗vcore80000+ 执行时间1100+s调试:下午4点 较空闲时段 尝试1:reduce个数跟案例1一样,设置了set mapred.reduce.tasks=200,现在注释掉。对比结果,vcore减少70%,但时间增加了。还是vcore优先吧。before************...
2019-01-25 17:08:29 300
原创 hive 优化实践 案例1
背景:任务topic#report_hw_user_stat#v1凌晨5点高峰期消耗vcore90000+ 执行时间600+s调试:下午3点 较空闲时段 尝试1:多个union all针对多个union all的优化,可以增加并行,通过set hive.exec.parallel默认是false, set hive.exec.parallel.thread.number 发现默认是...
2019-01-25 15:54:22 241
转载 Hive优化
1. hive group by distinct区别以及性能比较https://blog.csdn.net/xiaoshunzi111/article/details/684844262. 用insert into替换union all3. order by & sort by 执行计划是什么执行计划代表HiveSQL会转化成怎么样的MapReduce作业。也是...
2019-01-24 20:51:38 250
原创 XGB
学习过程:https://machinelearningmastery.com/gentle-introduction-xgboost-applied-machine-learning/https://www.analyticsvidhya.com/blog/2018/09/an-end-to-end-guide-to-understand-the-math-behind-xgboost/...
2018-12-20 22:35:43 631
原创 MySQL 分组排序取top
hive中可以使用row_number(),how about in MySql?? --1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tna...
2018-12-20 18:06:28 739
原创 Git
课程:https://classroom.udacity.com/courses/ud123参考文档:https://git-scm.com/doc git initgit clonegit statusgit loggit log --onelinegit log --statgit log -p ( same as --patch )git show...
2018-12-18 21:59:57 235
转载 时间序列分析
学习过程:如何理解时间序列?— 从 Riemann 积分和 Lebesgue 积分谈起https://zhuanlan.zhihu.com/p/34407471 金融时间序列分析入门【一】(1 - 4)https://zhuanlan.zhihu.com/p/21781849 视频课程:https://classroom.udacity.com/courses/ud...
2018-12-06 19:21:26 146
原创 create table as select 时字段类型的坑
drop table if exists temp.dw_trd_wm_orderdetail_rs0;create table temp.dw_trd_wm_orderdetail_rs0 as select * from d_extra.dw_trd_wm_orderdetail where 1=2;insert overwrite table temp.dw_trd_wm_order...
2018-09-06 15:45:12 5082
原创 hive 列转行 行转列
1. explodeexplode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。hive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows.UDTF...
2018-08-14 18:39:23 1679
原创 hive 数据倾斜 实例
任务长时间执行未果 (10000+ second)查看日志: [34m###*[Log] [TASK PING] : taskId=<111510244>, 6162 seconds[0m[34m###*[Log] [TASK PING] : taskId=<111510244>, 6163 secon...
2018-05-17 15:32:27 1268
原创 hive 随机抽取 分流
背景:做AB testing, 需要分流出固定百分比70%(但数量不固定)的用户跑二级风控模型问题:查了几个函数,都不能满足要求,比如ntile, tablesample(n percent) (这个是按size分的,不是行数)解决:with temp1 as ( select ceil(count(*)*0.7) as cnt from report.report_mxdai_ris...
2018-05-07 17:26:46 1383
原创 hadoop HDFS常用文件操作命令
hdfs dfs 与 hadoop fs 效果一样 1. put 从本地加载文件到HDFS基本语法:hadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put < local file or dir >...< hd...
2018-05-04 14:17:40 242
原创 LEFT JOIN条件放ON和WHERE后的区别
with temp1 as ( select model_no, model_name from d_extra.dim_mobile_model where model_no in ('vivox7', 'vivox9')), temp2 as ( select model_no, model_name from d_extra.dim_mobile_m...
2018-05-04 14:17:00 380
原创 Hive表 增改删字段
基本语法:ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_nameALTER TABLE name CHANGE column_name new_name new_typeALT...
2018-02-27 16:36:33 31768 7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人