- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 Spark RDD算子—补充
一、基本RDD转换运算: 1、randomSplit运算 可以将整个集合元素,以随机数的方式按照比例分为多个RDD。 此运算会返回Array[org.apache.spark.rdd.RDD[Int]]。 val intRDD=sc.parallelize(List(3,1,2,5,5)) val sRDD=intRDD.randomSplit(Array(0.4,0.6)) sRDD
2016-12-24 18:07:35 724
Hive数据仓库(一)
Hive是hadoop领域的数据仓库。它提供了一套工具可以让我们非常方便的管理位于HDFS中的大型数据集,它提供了一套类似于SQL的查询语言,可以很容易的查询hive中的数据。Hive也有数据库、表、视图、索引、函数等概念,非常类似于我们常用的关系型数据库,因此入手非常方便。本资源是Hive授课讲义的一部分。
2016-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人