小箱-CSDN博客

转载数据仓库之维度建模

1. 复制层（SSA,system-of-records-staging-area）SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中，不做处理)的数据，尽量保持业务数据的原貌；与源系统数据唯一不同的是，SSA 中的数据在源系统数据的基础上加入了时间戳的信息，形成了多个版本的历史数据信息。2. 原子层（SOR,system-of-record...

2019-05-11 12:00:39 689

原创 hive 分区表增加字段及其它操作

对现有的分区表修改表结构：比如现有3个分区，你现在在MDM里增加一个字段，这时这个表里有4个表结构，3个分区的+现在的。如果想更新分区表里的数据，需要先删除分区，insert overwrite 不顶用。存疑。。。。。ref:https://blog.csdn.net/xiao_jun_0820/article/details/45560591https://blog...

2019-03-19 19:38:52 2859

一开始，你可能觉得你只需要一个环境，well, at most two: 一个Dev环境（aka ur PC） + one server. 但是随着项目的发展，可能需要更多的环境，那它们是什么，又有什么用处呢？1. 环境的定义Environment – In hosted software (eg web site/application, database not shrinkwrap s...

2019-02-21 17:40:54 963

转载 hive中的in /exists, not in / not exists

in的改写考虑以下 SQL 查询语句：SELECT a.key, a.value FROM aWHERE a.key in (SELECT b.key FROM B);可以改为：SELECT a.key, a.valueFROM a LEFT OUTER JOIN b ON (a.key = b.key)WHERE b.key <> NULL;一个更高效...

2019-02-13 17:59:35 16065

原创 hive中的null

hive表：select * from tmp.zsh_test1;c1 c2 c3 c4 c5 c6 topicdate11 12 13 NULL NULL NULL 2018-09-0121 22 23 NULL NULL NULL 2018-09-0231 32 ...

2019-02-13 16:58:19 190

转载 SQL强化训练经典50题及hive版

--1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tname) --T 教师编号,Tname 教师姓名--4.成绩表 SC(S,C,score) ...

2019-02-12 17:27:32 1431

原创 hive OutOfMemoryError: Java heap space

报错：1. RuntimeException: java.lang.OutOfMemoryError: Java heap space2. Container exited with a non-zero exit code 255 尝试： 1. set mapreduce.input.fileinputformat.split.maxsize=5000000...

2019-01-29 15:51:14 1408

原创记一次报错

执行mail_monitor_tool_sd任务时：查看data_tool_daily.ini文件，发现第一行多了个空白行，显示字符，也没有发现除了换行符以外的东西，用ultraedit查看，十六进制显示，发现多了EF BB BF，而且还删不掉。最后解决办法：新建一个文本，把诡异字符之后的东西复制进去，覆盖原文件。网上搜了一下，据说是UTF-8编码的文件，开头加入了BOM来表明编码...

2019-01-29 15:34:44 232

转载 sql的执行顺序 & 为什么group by后面不能使用列的别名

Sql语句执行顺序(1)FROM <left_table>(2)ON <join_condition>(3)<join_type> JOIN <right_table>(4)WHERE <where_condition>(5)GROUP BY <group_by_list&...

2019-01-29 15:30:24 1456 1

转载 hive命令行中显示列名字段的配置

显示列名set hive.cli.print.header=true;(或者 hive --showheader = true)但是显示列名以后，又出现表名+列名的显示方式，可读性不好。set hive.resultset.use.unique.column.names=false; 因为在cli中set配置属性只是当次有效，如果想永久配置的话，将上述命令配置到hive/c...

2019-01-29 15:17:23 1068

转载 hive 动态分区

语法：SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstrict;如使用动态分区的方式，一次性插入大量数据，将会出现以下错误数据会先分配到40个reducer上，再插入到分区表中如何修改分区表的字段？Alter table xxx drop pa...

2019-01-29 15:11:02 558

转载机器学习之支持向量机 svm for beginners

为什么叫支持向量机？先说Machine。SVM95年发表的时候叫Support Vector Network，为了和神经网络撇清关系，在98年改Network为Machine。再说Support Vector。比如为了找一条线分开下图的猫和狗，我们能找到很多这样的线，但是哪一条才是最优的呢？直观地看，我们只需要考虑几个特殊的点（红圈），这几个点之间的线基本都能分开全部的猫和狗...

2019-01-28 18:29:42 333

原创 hive 优化实践案例2

背景：任务topic#report_hw_page_uv_stat#v1凌晨5点高峰期消耗vcore80000+ 执行时间1100+s调试：下午4点较空闲时段尝试1：reduce个数跟案例1一样，设置了set mapred.reduce.tasks=200，现在注释掉。对比结果，vcore减少70%，但时间增加了。还是vcore优先吧。before************...

2019-01-25 17:08:29 300

原创 hive 优化实践案例1

背景：任务topic#report_hw_user_stat#v1凌晨5点高峰期消耗vcore90000+ 执行时间600+s调试：下午3点较空闲时段尝试1：多个union all针对多个union all的优化，可以增加并行，通过set hive.exec.parallel默认是false， set hive.exec.parallel.thread.number 发现默认是...

2019-01-25 15:54:22 241

转载 Hive优化

1. hive group by distinct区别以及性能比较https://blog.csdn.net/xiaoshunzi111/article/details/684844262. 用insert into替换union all3. order by & sort by 执行计划是什么执行计划代表HiveSQL会转化成怎么样的MapReduce作业。也是...

2019-01-24 20:51:38 250

原创 XGB

学习过程：https://machinelearningmastery.com/gentle-introduction-xgboost-applied-machine-learning/https://www.analyticsvidhya.com/blog/2018/09/an-end-to-end-guide-to-understand-the-math-behind-xgboost/...

2018-12-20 22:35:43 631

原创 MySQL 分组排序取top

hive中可以使用row_number()，how about in MySql?? --1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tna...

2018-12-20 18:06:28 739

原创 Git

课程：https://classroom.udacity.com/courses/ud123参考文档：https://git-scm.com/doc git initgit clonegit statusgit loggit log --onelinegit log --statgit log -p ( same as --patch )git show...

2018-12-18 21:59:57 235

转载时间序列分析

学习过程：如何理解时间序列？— 从 Riemann 积分和 Lebesgue 积分谈起https://zhuanlan.zhihu.com/p/34407471 金融时间序列分析入门【一】（1 - 4）https://zhuanlan.zhihu.com/p/21781849 视频课程：https://classroom.udacity.com/courses/ud...

2018-12-06 19:21:26 146

原创 create table as select 时字段类型的坑

drop table if exists temp.dw_trd_wm_orderdetail_rs0;create table temp.dw_trd_wm_orderdetail_rs0 as select * from d_extra.dw_trd_wm_orderdetail where 1=2;insert overwrite table temp.dw_trd_wm_order...

2018-09-06 15:45:12 5082

原创 hive 列转行行转列

1. explodeexplode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。hive wiki对于expolde的解释如下：explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows.UDTF...

2018-08-14 18:39:23 1679

原创 hive 数据倾斜实例

任务长时间执行未果 (10000+ second)查看日志： [34m###*[Log] [TASK PING] : taskId=<111510244>, 6162 seconds[0m[34m###*[Log] [TASK PING] : taskId=<111510244>, 6163 secon...

2018-05-17 15:32:27 1268

原创 hive 随机抽取分流

背景：做AB testing, 需要分流出固定百分比70%（但数量不固定）的用户跑二级风控模型问题：查了几个函数，都不能满足要求，比如ntile, tablesample(n percent) (这个是按size分的，不是行数)解决：with temp1 as ( select ceil(count(*)*0.7) as cnt from report.report_mxdai_ris...

2018-05-07 17:26:46 1383

原创 hadoop HDFS常用文件操作命令

hdfs dfs 与 hadoop fs 效果一样 1. put 从本地加载文件到HDFS基本语法：hadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在，否则命令不会执行hadoop fs -put < local file or dir >...< hd...

2018-05-04 14:17:40 242

原创 LEFT JOIN条件放ON和WHERE后的区别

with temp1 as ( select model_no, model_name from d_extra.dim_mobile_model where model_no in ('vivox7', 'vivox9')), temp2 as ( select model_no, model_name from d_extra.dim_mobile_m...

2018-05-04 14:17:00 380

原创 Hive表增改删字段

基本语法：ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_nameALTER TABLE name CHANGE column_name new_name new_typeALT...

2018-02-27 16:36:33 31768 7

littlecarton的博客

原创 SQL 谓词下推