SparkContext的parallelize

在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,Spark将会...
阅读(250) 评论(9)

大数据开源框架特点大总结

1. ElasticSearch1.1 ElasticSearch的优点: 高并发。实测es单机分配10g内存单实例,写入能力1200qps,60g内存、12核CPU起3个实例预计可达到6000qps。 同机房单条数据写入平均3ms(比mysql慢,mg不清楚) 容错能力比mg强。比如1主多从,主片挂了从片会自动顶上 满足大数据下实时读写需求,无需分库(不存在库的概念)。 易扩展。实例间做下配置即可...
阅读(211) 评论(4)
    个人资料
    • 访问:99927次
    • 积分:2768
    • 等级:
    • 排名:第12997名
    • 原创:74篇
    • 转载:6篇
    • 译文:4篇
    • 评论:722条
    我的公众号

    博客专栏
    最新评论