![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
颓废的大饼
这个作者很懒,什么都没留下…
展开
-
Spark 2.4 入门之基于Hadoop 2.7.3环境搭建
准备环境3 台 Linux VM Server RHL6.8 * 3Hadoop 2.7.3 集群环境搭建下载Spark 2.4 版本网址: https://spark.apache.org/downloads.html镜像地址 http://mirror.bit.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.t...原创 2018-12-12 23:11:42 · 1832 阅读 · 0 评论 -
Spark 之 Datasets 创建方式
创建Datasets 的三种方式由DataFrame 转化成为 Dataset通过 SparkSession.createDataset() 直接创建通过toDS 方法意识转换案例一: 由DataFrame 转化成为 Dataset val spark = SparkSession.builder().config(conf).getOrCreate(); impo...原创 2019-02-13 17:23:03 · 1723 阅读 · 0 评论 -
Spark: DataFrame vs DataSet
DataFrame vs DataSet1. ObjectiveRecently, there are two new data abstractions released dataframe and datasets in apache spark. Now, it might be difficult to understand the relevance of each one. Al...转载 2019-02-11 16:38:02 · 260 阅读 · 0 评论 -
Spark SQL 之 Temporary View
Spark SQL 之 Temporary Viewspark SQL的 temporary view 是支持原生SQL 的方式之一spark SQL的 DataFrame 和 DataSet 均可以通过注册 temporary view 的方式来形成视图案例一: 通过 DataFrame 的方式创建val spark = SparkSession.builder().config(con...原创 2019-02-16 09:50:50 · 3583 阅读 · 0 评论 -
Spark SQL 之 DataFrame 创建的几种方式
SparkSQL 组件在Spark 体系中架构图DataFrameDataframe 的概念有点像传统数据库中的表,每一条记录都代表了一个 Row Object.与RDD的API 类似,DataFrame 的API 可以分为2种: transformations and actions.Dataframe 可以从 Hive 或者其他的 database 中读取创建。如何创建 DataF...原创 2019-01-22 13:53:15 · 869 阅读 · 0 评论 -
SparkSQL之处理结构化数据
SPARKSQL 处理结构化数据同样SPARKSQL 处理机构化数据也存在2个大的API:transformation 和actionTransformation API 列表Operationdescselect对应传统SQL的select 语句selectExprselect 语句中添加表达式filter where过滤条件distinct d...原创 2019-01-31 13:28:40 · 992 阅读 · 0 评论 -
如何将Spark 源码导入IDEA中
下载spark 源码https://github.com/apache/spark/在branch 中选择 相应的版本,这里我选择2.4版本待下载完成后,解压文件在IDEA中 选择导入项目选择解压源码路径...原创 2019-01-24 21:15:52 · 1058 阅读 · 0 评论 -
Spark之RDD常用操作
test原创 2019-01-09 09:10:22 · 904 阅读 · 0 评论 -
Spark RDD 之 pair (k.v) 操作
这篇文章是关于spark RDD Key/Value Pair 的操作1. 创建 k/v pair 的RDDval sc = new SparkContext(conf);val strArray = List("this is spark","It is fun!","spark is cool");val strRDD = sc.parallelize(strArray);va原创 2019-01-14 16:23:39 · 632 阅读 · 0 评论 -
Spark 2.4 之 standalone 集群搭建
本文参考官方文档: http://spark.apache.org/docs/latest/spark-standalone.html1.预先搭建3台hadoop 的集群SERVER INFOversion192.168.1.10RHL6.8 & Hadoop 2.7.3192.168.1.11RHL6.8 & Hadoop 2.7.319...原创 2018-12-21 23:10:51 · 529 阅读 · 0 评论 -
IDEA 中开发第一个Spark 程序
1. 创建一个Maven 项目2. 添加SCALA依赖库修改POM.xml 文件加入 hadoop-client 和spark-core_2.11 的库依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs --> <dependency> <gr...原创 2018-12-16 17:29:07 · 880 阅读 · 0 评论 -
Spark SQL 之 Aggregation
Spark SQL 之 聚合函数 (Aggregation)案例来自于世界杯足球赛相关数据下载文件 https://www.kaggle.com/abecklas/fifa-world-cup#WorldCups.csv数据样式创建 WorldCUP 的case classcase class WorldCup(year:String, ...原创 2019-03-04 14:06:20 · 499 阅读 · 0 评论