- 博客(1)
- 收藏
- 关注
原创 基于Spark DataFrame的数据仓库框架
数据存储的多样性,对数据分析、挖掘带来众多不变。应用瓶颈表现在两个方面: 1. 传统数据库mysql等的数据处理能力有限,随着数据量的增加,join、groupby、orderby等操作出现速度极慢,甚至将机器资源耗尽、不能运行的情况;另一方面,将数据存储转移到分布式系统比如hdfs的代价太大。 2. 不能进行跨数据源的访问。比如对hive table、htable、mys
2015-11-30 10:55:15 6561
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人