ETL
文章平均质量分 72
富兰克林008
支撑系统运维。
展开
-
使用 hadoop组件 作为 ETL 或 ELT 工具
觉得,数据量很大的情况下,确实可以使用hadoop的组件来做ETL,hdfs存储全部的原始数据,需要的时候通过Hive,sparkSQL或者Impala查询。前提就是先建议Hive外部表的metastore,然后供sparkSQL和Impala访问。原创 2015-12-16 12:34:38 · 3300 阅读 · 0 评论 -
crontab shell调用spark-sql,实现周期性动态SQL批量自动执行
对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办?spark-sql CLI几个参数,完全满足我等非专业人员。CLI options: -d,--define Variable subsit原创 2015-12-18 13:11:39 · 6492 阅读 · 1 评论