随着Spark SQ
的引入以及Hive On Apache Spark
的新功能(HIVE-7292)的引入,我们对这两个项目的立场以及它们与Shark的关系有了很多的关注。在今天的Spark Summit上,我们宣布我们正在停止Shark
的开发,并将资源全部集中在Spark SQL
上,这将为现有Shark
用户提供一个Shark
特色的圈子(will provide a superset of Shark’s features for existing Shark users to move forward)。特别是,Spark SQL
将提供从Shark 0.9服务器进行无缝升级途径,以及与Spark程序集成的新功能。
1. Shark
3年前Shark项目开始时,Hive(MapReduce)是Hadoop上SQL的唯一选择。Hive将SQL编译成可扩展的MapReduce作业,并可以使用各种格式(通过其SerDes)。 但是,它的性能不如理想。为了交互式查询,组织部署了昂贵的专有企业数据仓库&