spark
勇敢先生
这个作者很懒,什么都没留下…
展开
-
Spark自定义排序问题(scala)
我们在使用的spark 的在做数据统计的时,实现的数据的排序的过程中,使用的在RDD提供的的算子的,往往的不能我们的开发的条件,需要我们自行的定义的排序的规则。在这里暂时提供三种的三种的自动的排序使用的默认的sortBy 的排序规则直接利用元组来封装排序的条件package org.yongggan import org.apache.spark.rdd.RDD import org.apach...原创 2018-05-09 22:56:20 · 966 阅读 · 0 评论 -
Spark集群搭建(standalone集群)
简单介绍Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框...原创 2018-04-29 23:47:27 · 2939 阅读 · 0 评论 -
SparkSQL2.x 中的DataFrame和Dataset创建与使用
SparkSQL 的概念 Spark SQL 是一个用来处理结构化数据的 spark 组件,也可被视为一个分布式的 SQL 查询引擎。与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口。在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset AP...原创 2018-05-14 19:27:36 · 3883 阅读 · 0 评论