自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 SQL 谓词下推

谓词下推

2023-03-13 17:20:47 557 1

转载 数据仓库之维度建模

1. 复制层(SSA,system-of-records-staging-area)SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。2. 原子层(SOR,system-of-record...

2019-05-11 12:00:39 689

原创 hive 分区表增加字段 及其它操作

对现有的分区表修改表结构:比如现有3个分区,你现在在MDM里增加一个字段,这时这个表里有4个表结构,3个分区的+现在的。如果想更新分区表里的数据,需要先删除分区,insert overwrite 不顶用。存疑。。。。。ref:https://blog.csdn.net/xiao_jun_0820/article/details/45560591https://blog...

2019-03-19 19:38:52 2859

转载 pro、pre、test、dev环境

一开始,你可能觉得你只需要一个环境,well, at most two: 一个Dev环境(aka ur PC) + one server. 但是随着项目的发展,可能需要更多的环境,那它们是什么,又有什么用处呢?1. 环境的定义Environment – In hosted software (eg web site/application, database not shrinkwrap s...

2019-02-21 17:40:54 963

转载 hive中的in /exists, not in / not exists

 in的改写考虑以下 SQL 查询语句:SELECT a.key, a.value FROM aWHERE a.key in (SELECT b.key FROM B);可以改为:SELECT a.key, a.valueFROM a LEFT OUTER JOIN b ON (a.key = b.key)WHERE b.key <> NULL;一个更高效...

2019-02-13 17:59:35 16065

原创 hive中的null

hive表:select * from tmp.zsh_test1;c1    c2    c3    c4    c5    c6    topicdate11    12    13    NULL    NULL    NULL    2018-09-0121    22    23    NULL    NULL    NULL    2018-09-0231    32  ...

2019-02-13 16:58:19 190

转载 SQL强化训练经典50题 及hive版

--1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tname) --T 教师编号,Tname 教师姓名--4.成绩表 SC(S,C,score) ...

2019-02-12 17:27:32 1431

原创 hive OutOfMemoryError: Java heap space

报错:1. RuntimeException: java.lang.OutOfMemoryError: Java heap space2. Container exited with a non-zero exit code 255  尝试: 1. set mapreduce.input.fileinputformat.split.maxsize=5000000...

2019-01-29 15:51:14 1408

原创 记一次报错

执行mail_monitor_tool_sd任务时:查看data_tool_daily.ini文件,发现第一行多了个空白行,显示字符,也没有发现除了换行符以外的东西,用ultraedit查看,十六进制显示,发现多了EF BB BF,而且还删不掉。最后解决办法:新建一个文本,把诡异字符之后的东西复制进去,覆盖原文件。网上搜了一下,据说是UTF-8编码的文件,开头加入了BOM来表明编码...

2019-01-29 15:34:44 232

转载 sql的执行顺序 & 为什么group by后面不能使用列的别名

Sql语句执行顺序(1)FROM <left_table>(2)ON <join_condition>(3)<join_type> JOIN <right_table>(4)WHERE <where_condition>(5)GROUP BY <group_by_list&...

2019-01-29 15:30:24 1456 1

转载 hive命令行中显示列名字段的配置

显示列名set hive.cli.print.header=true;(或者 hive --showheader = true)但是显示列名以后,又出现表名+列名的显示方式,可读性不好。set hive.resultset.use.unique.column.names=false; 因为在cli中set配置属性只是当次有效,如果想永久配置的话,将上述命令配置到hive/c...

2019-01-29 15:17:23 1068

转载 hive 动态分区

语法:SET hive.exec.dynamic.partition=true;SET hive.exec.dynamic.partition.mode=nonstrict;如使用动态分区的方式,一次性插入大量数据,将会出现以下错误数据会先分配到40个reducer上, 再插入到分区表中如何修改分区表的字段?Alter table xxx drop pa...

2019-01-29 15:11:02 558

转载 机器学习之支持向量机 svm for beginners

为什么叫支持向量机?先说Machine。SVM95年发表的时候叫Support Vector Network,为了和神经网络撇清关系,在98年改Network为Machine。再说Support Vector。比如为了找一条线分开下图的猫和狗,我们能找到很多这样的线,但是哪一条才是最优的呢?   直观地看,我们只需要考虑几个特殊的点(红圈),这几个点之间的线基本都能分开全部的猫和狗...

2019-01-28 18:29:42 333

原创 hive 优化实践 案例2

背景:任务topic#report_hw_page_uv_stat#v1凌晨5点高峰期消耗vcore80000+ 执行时间1100+s调试:下午4点 较空闲时段 尝试1:reduce个数跟案例1一样,设置了set mapred.reduce.tasks=200,现在注释掉。对比结果,vcore减少70%,但时间增加了。还是vcore优先吧。before************...

2019-01-25 17:08:29 300

原创 hive 优化实践 案例1

背景:任务topic#report_hw_user_stat#v1凌晨5点高峰期消耗vcore90000+ 执行时间600+s调试:下午3点 较空闲时段 尝试1:多个union all针对多个union all的优化,可以增加并行,通过set hive.exec.parallel默认是false, set hive.exec.parallel.thread.number 发现默认是...

2019-01-25 15:54:22 241

转载 Hive优化

1. hive group by distinct区别以及性能比较https://blog.csdn.net/xiaoshunzi111/article/details/684844262. 用insert into替换union all3. order by &amp; sort by  执行计划是什么执行计划代表HiveSQL会转化成怎么样的MapReduce作业。也是...

2019-01-24 20:51:38 250

原创 XGB

学习过程:https://machinelearningmastery.com/gentle-introduction-xgboost-applied-machine-learning/https://www.analyticsvidhya.com/blog/2018/09/an-end-to-end-guide-to-understand-the-math-behind-xgboost/...

2018-12-20 22:35:43 631

原创 MySQL 分组排序取top

hive中可以使用row_number(),how about in MySql?? --1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tna...

2018-12-20 18:06:28 739

原创 Git

课程:https://classroom.udacity.com/courses/ud123参考文档:https://git-scm.com/doc git initgit clonegit statusgit loggit log --onelinegit log --statgit log -p  ( same as  --patch )git show...

2018-12-18 21:59:57 235

转载 时间序列分析

学习过程:如何理解时间序列?— 从 Riemann 积分和 Lebesgue 积分谈起https://zhuanlan.zhihu.com/p/34407471 金融时间序列分析入门【一】(1 - 4)https://zhuanlan.zhihu.com/p/21781849 视频课程:https://classroom.udacity.com/courses/ud...

2018-12-06 19:21:26 146

原创 create table as select 时字段类型的坑

drop table if exists temp.dw_trd_wm_orderdetail_rs0;create table temp.dw_trd_wm_orderdetail_rs0 as select * from d_extra.dw_trd_wm_orderdetail where 1=2;insert overwrite table temp.dw_trd_wm_order...

2018-09-06 15:45:12 5082

原创 hive 列转行 行转列

1. explodeexplode就是将hive一行中复杂的 array 或者 map 结构拆分成多行。hive wiki对于expolde的解释如下:explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows.UDTF...

2018-08-14 18:39:23 1679

原创 hive 数据倾斜 实例

任务长时间执行未果 (10000+ second)查看日志: [34m###*[Log] [TASK PING] : taskId=&lt;111510244&gt;, 6162 seconds[0m[34m###*[Log] [TASK PING] : taskId=&lt;111510244&gt;, 6163 secon...

2018-05-17 15:32:27 1268

原创 hive 随机抽取 分流

背景:做AB testing, 需要分流出固定百分比70%(但数量不固定)的用户跑二级风控模型问题:查了几个函数,都不能满足要求,比如ntile, tablesample(n percent) (这个是按size分的,不是行数)解决:with temp1 as (    select ceil(count(*)*0.7) as cnt    from report.report_mxdai_ris...

2018-05-07 17:26:46 1383

原创 hadoop HDFS常用文件操作命令

hdfs dfs 与 hadoop fs 效果一样 1. put 从本地加载文件到HDFS基本语法:hadoop fs -put &lt; local file &gt; &lt; hdfs file &gt;hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put &lt; local file or dir &gt;...&lt; hd...

2018-05-04 14:17:40 242

原创 LEFT JOIN条件放ON和WHERE后的区别

with temp1 as ( select model_no, model_name from d_extra.dim_mobile_model where model_no in ('vivox7', 'vivox9')), temp2 as ( select model_no, model_name from d_extra.dim_mobile_m...

2018-05-04 14:17:00 380

原创 Hive表 增改删字段

基本语法:ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_nameALTER TABLE name CHANGE column_name new_name new_typeALT...

2018-02-27 16:36:33 31768 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除