- 博客(5)
- 收藏
- 关注
原创 1.Notepad++使用scala语言高亮显示
1、将面的内容复制到userLangDefine.xml文件中 <NotepadPlus> <UserLang name="Scala" ext="scala"> <Settings> <Global caseIgnored="no" /> ...
2019-08-15 17:03:20
511
原创 3.拉链表 留存率 同比和环比
1.拉链表 概念:记录一条数据每天的变化信息。 案例: 创建一个主表 ---拉链表 ---创建一个主表,模拟3个字段 按照时间进行分区 --- uuid 用户唯一表示 --- version 版本 --- visit_time 访问时间 以天为记录单位 create table if not exists ods_zipper_test( uuid strin...
2019-08-15 15:34:46
641
原创 2.1 hive函数
1.count()和sum() count(*)和count(1)的区别: 1.count(*)会进行全表扫描;不会过滤掉一整行为null的行 2.count(1) 会过滤掉一整行值为null的值 sum(0)和sum(1)的区别: sum(0):0 ...
2019-08-14 00:25:10
187
原创 1.hive优化
参数优化 group by优化 Map 端部分聚合: 并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进 行部分聚合,最后在 Reduce 端得出最终结果。 MapReduce 的 combiner 组件 参数包括: set hive.map.aggr = true 是否在 Map 端进行聚合,默认为 Tru...
2019-08-14 00:11:01
102
原创 1.meavn安装
1.下载软件 http://mirror.bit.edu.cn/apache/maven/maven-3/3.2.5/binaries/ 2.上传到linux 3.解压缩 tar -zxvf apache-maven-3.2.5-bin.tar.gz -C /home/hadoop/apps/ 4.配置环境变量 vim /etc/profile export MAVEN_...
2019-08-13 18:17:09
159
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人