- 博客(4)
- 收藏
- 关注
转载 spark mapPartition方法与map方法的区别 以及 join的用法
(转)http://wanshi.iteye.com/blog/2183906 rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数...
2018-02-25 00:13:50 730
转载 为什么java.util.concurrent 包里没有并发的ArrayList实现?
问:JDK 5在java.util.concurrent里引入了ConcurrentHashMap,在需要支持高并发的场景,我们可以使用它代替HashMap。但是为什么没有ArrayList的并发实现呢?难道在多线程场景下我们只有Vector这一种线程安全的数组实现可以选择么?为什么在java.util.concurrent 没有一个类可以代替Vector呢?答:我认为在java.util.con...
2018-02-19 22:32:12 512
原创 Windows下单机安装Spark开发环境
机器:windows 10 64位。Java下Spark开发环境搭建1.1、jdk安装安装oracle下的jdk,我安装的是jdk 1.8,安装完新建系统环境变量JAVA_HOME,变量值为“C:\Program Files\Java\jdk1.8”,视自己安装路劲而定。同时在系统变量Path下添加C:\Program Files\Java\jdk1.8\bin和C:\Program Files\...
2018-02-08 23:32:08 306
转载 Apache Avro:一个新的数据交换格式
原文: http://blog.cloudera.com/blog/2009/11/avro-a-new-format-for-data-interchange/Apache Avro 最近加入了Hadoop项目的大家庭。Avro定义了一个数据格式,从设计上支持数据密集型应用,并且为多编程语言提供该格式支持。背景我们希望数据驱动的应用是动态。人们应该能够快速组合来自不同
2018-02-05 23:13:21 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人