数据源:业务数据库,如:mysql,埋点数据(XA分发到kafka的topic-->flume-->hdfs---->MR程序解析到HDFS-->HIVE外表关联)。
数据仓库各层(stg-ods-mid-dm-fm):数据图书馆,数据整合
数据应用层:MYSQL,HBASE,es
应用:数据分析,数据挖掘知识 学习机器学习知识
其中涉及的技术:
0、hadoop集群知识
1、shell知识
2、HBASE知识
3、hive知识
4、kafka topic知识
5、flume配置
6、java知识,MR编写
7、zookeeper知识
------------------------------------------------
数据仓库的代码框架:
1、数据仓库需要考虑两个问题,1、指定日期,支持重跑;2、连续跑好几天;
需要用到的shell:
1、日期处理语句
去年:echo -e `date --date="2018-12-20 -1 year" +%Y-%m-%d`
上月:echo -e `date --date="2018-12-20 -1 month" +%Y-%m-%d`
昨日:echo -e `date --date="2018-12-20 -1 day" +%Y-%m-%d`
2、打日志
echo 有两个参数 -e -n
echo -e 处理特殊字符
若字符串中出现以下字符,则特别加以处理,而不会将它当成一般文字输出:
\a 发出警告声;
\b 删除前一个字符;
\c 最后不加上换行符号;
\f 换行但光标仍旧停留在原来的位置;
\n 换行且光标移至行首;
\r 光标移至行首,但不换行;
\t 插入tab;
\v 与\f相同;
\ 插入\字符;
\nnn 插入nnn(八进制)所代表的ASCII字符;