大致说下架构,hadoop的mapreduce实现基础计算,kylin实现数据统计分析,sqoop把mysql数据同步到hive中
hive和hbase服务于kylin,hive是数据仓库为kylin提供数据,hbase存放kylin生成的cube。zeppelin通过kylin提供的接口进行大数据可视化展示。
1、整个过程中mysql\hive\kylin三处用到了sql,但标准不一样这是比较搞脑子的地方。
1)mysql,我就不多讲了,各种函数处理数据十分灵活。
2)hive sql,灵活度比关系型数据库差些,不过也还好。https://www.iteblog.com/archives/2258.html#i-7
3)kylin在insight和api会调用自己的一套sql标准,官网说“- 可扩展超快OLAP引擎: Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计- Hadoop ANSI SQL 接口: Kylin为Hadoop提供标准SQL支持大部分查询功能”,但是网上也么找到具体的函数使用说明,我根据报错信息,得出大概支持下列sql函数:
"UNION"
"INTERSECT"
"EXCEPT"
"MINUS"
"ORDER"
"LIMIT"
"OFFSET"
"FETCH"
"STREAM"
"DISTINCT"
"ALL"
"*"
"+"
"-"
"NOT"
"EXISTS"
<UNSIGNED_INTEGER_LITERAL>
<DECIMAL_NUMERIC_LITERAL>
<APPROX_NUMERIC_LITERAL>
<BINARY_STRING_LITERAL>
<PREFIXED_STRING_LITERAL>
<QUOTED_STRING>
<UNICODE_STRING_LITERAL>