- 博客(3)
- 收藏
- 关注
原创 每天一点进步:Spark运行模式和原理
在实际引用中,spark应用程序运行模式取决于传递给sparkContext的master环境变量的值。目前所支持的master环境变量由特定的字符串或者URL组成,
2015-12-17 18:10:52 562
原创 每天一点进步:hbase预分区和压缩
rowkey是hbase的key-value存储中的key,通常使用用户要查询的字段作为rowkey,查询结果作为value。可以通过设计满足几种不同的查询需求。
2015-12-14 00:21:28 3203
原创 每天一点进步:Spark RDD三大特性
RDD是弹性分布式数据集(Resilience distributes Datasets )的简称,即一个被分区的数据集。RDD的来源只有两种:一种是从内存中的集合和外部存储系统,另外一种是通过转换操作来自其他RDD
2015-12-11 00:02:59 1678
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人