大数据
断桥bian
我始终相信,一个程序员最大的价值是他的创造力,而不仅仅是他的编码能力!
展开
-
大数据学习笔记之Spark-RDD编程
RDD编程Spark中的核心数据操作:创建RDD转换已有的RDD调用RDD操作进行求值Note:RDD是Spark数据操作的核心,它的主要特点是操作链,惰性求值。RDD创建创建RDD主要有两种方法:读取外部数据集JavaRDD<String> lines = sc.textFile("your file path")在驱动原创 2019-02-11 15:47:54 · 465 阅读 · 0 评论 -
大数据学习笔记之Spark-优化
Spark优化函数传递在spark中,很多操作都需要依赖用户传递的函数,在我们传递函数的时候,如果函数中包含其他对象的饮用,Spark也会把其他对象传递。(尤其是在python中)解决方法:将函数中的必要字段转换成局部变量,然后进行传递。引用《Spark快速大数据分析》...原创 2019-02-11 15:54:38 · 315 阅读 · 0 评论