Spark
有一个码农,他叫封子
这个作者很懒,什么都没留下…
展开
-
我的大数据之旅-Spark DStreams输入
DStream输入 基本数据源 文件数据源 创建方式: StreamingContext.fileStream[KeyClass, ValueClass, InputFormatClass] 文本文件: streamingContext.textFileStream(dataDirectory) pom.xml <?xml version="1.0" enc...原创 2019-10-29 11:21:17 · 183 阅读 · 0 评论 -
我的大数据之旅-Spark Streaming wordcount
创建maven项目: 打包的时候注意修改成自己项目的包名。 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2019-10-26 16:49:12 · 190 阅读 · 0 评论 -
我的大数据之旅-Spark SQL通用加载、保存方法
目录 Spark SQL输入: 通用模式: 高级模式 Spark SQL输出: 思维导图 Spark SQL输入: 通用模式: 不指定输入文件类型:sparkSession.read.load("path") scala> val usersDF = spark.read.load("examples/src/main/resources/users.parquet") ...原创 2019-10-20 16:03:40 · 143 阅读 · 0 评论 -
我的大数据之旅-Spark Dataset和RDD互操作
目录 通过反射获取Schema 通过编程设置Schema(StructType) 通过反射获取Schema 在scala接口中,Spark SQL支持自动将包含case类的RDD转换成DataFrame。case类定义了table的结构,case类通过属性反射变成了列名。 scala> case class Person(name:String, age:Int) d...原创 2019-10-19 16:24:30 · 171 阅读 · 0 评论 -
我的大数据之旅-Spark 用户自定义函数
用户自定义UDF函数 scala> spark.udf.register("addName",(x:String) => "Name: " + x) res1: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(<function1>,StringType,Some(Li...原创 2019-10-19 14:34:27 · 268 阅读 · 0 评论 -
我的大数据之旅-Spark RDD、DataFrame、DataSet之间的转换
目录 RDD转DataFrame:(rdd.toDF()) RDD转DataSet:(rdd.toDS()) DataFrame、DataSet转RDD:(dataFrame.rdd、dataSet.rdd) DataFrame转DataSet:(dataFrame.as[Person]): DataSet转DataFrame:(dataFrame.toDF): RDD转Data...原创 2019-10-19 13:41:26 · 268 阅读 · 0 评论 -
我的大数据之旅-Spark SQL DataFrame常用操作
package com.fengling.sql import org.apache.spark.SparkConf import org.apache.spark.sql.{DataFrame, SparkSession} import org.slf4j.LoggerFactory case class People(name: String, age: Int) /** * @a...原创 2019-10-19 11:52:29 · 145 阅读 · 0 评论 -
我的大数据之旅-Spark checkpoint的使用,spark shell演示
主要步骤: 创建RDD 设置sc.setCheckpointDir路径 调用checkpoint方法 调用一下action操作 scala> sc.setCheckpointDir("hdfs://hadoop129:9000/spark_check_point_20191014_data") scala> val data = sc.parallelize(1 to 10...原创 2019-10-14 13:15:42 · 173 阅读 · 0 评论 -
我的大数据之旅-Spark RDD操作
Spark RDD操作的两种类型: transformations 在Spark里所有RDD的转换都是延迟加载的,不会马上计算结果,Spark只是记住要应用于基础数据集的一些转换操作。 只有当一个动作要求返回给Driver时,计算才会给执行。 常用的transformations Transformation 含义 map(func) ...原创 2019-09-29 15:55:30 · 156 阅读 · 0 评论 -
我的大数据之旅-Spark创建RDD的两种方式
什么是RDD The main abstraction Spark provides is aresilient distributed dataset(RDD), which is a collection of elements partitioned across the nodes of the cluster that can be operated on in parallel...原创 2019-09-28 22:00:00 · 272 阅读 · 0 评论 -
我的大数据之旅-Spark配置Job History Server
目录 配置文件 提交作业,检查是否可用 配置文件 进入Spark的conf目录,spark-defaults.conf.template拷贝一份 [fengling@hadoop129 conf]$ pwd /opt/module/spark-2.4.4-bin-hadoop2.7/conf [fengling@hadoop129 conf]$ cp spark-defaults.co...原创 2019-09-27 14:58:33 · 128 阅读 · 0 评论 -
我的大数据之旅-Spark shell Word Count
目录 上传文件到HDFS 运行Spark shell 统计RELEASE文件里每个单词的数量 查看Job结果 上传文件到HDFS #hdfs创建spark目录: [fengling@hadoop129 spark-2.4.4-bin-hadoop2.7]$ hdfs dfs -mkdir spark #将Spark RELEASE文件上传到hdfs spark目录下 [fenglin...原创 2019-09-26 13:09:59 · 154 阅读 · 0 评论 -
我的大数据之旅-执行第一个Spark应用:蒙特·卡罗算法求PI
提交任务 [fengling@hadoop129 spark-2.4.4-bin-hadoop2.7]$ bin/spark-submit --class org.apache.spark.examples.SparkPi \ > --master spark://hadoop129:7077 \ > --executor-memory 1G \ > --total-exec...原创 2019-09-26 11:06:10 · 188 阅读 · 0 评论 -
我的大数据之旅-Spark集群环境搭建
一、环境装备 两台或者两台以上安装了jdk1.8的虚拟机 我准备了三台:hadoop129/hadoop130/hadoop131 规划: Master机:hadoop129 Slaves机:hadoop130/hadoop131 二、下载Spark安装包: Spark官网下载地址 三、解压缩 [fengling@hadoop129 ...原创 2019-09-24 14:41:15 · 146 阅读 · 0 评论