Spark-Scala
晚风时亦鹿
我宁愿犯错 也不愿什么都不做
展开
-
大数据A环境搭建--HADOOP--Ubuntu
模块A环境搭建一、安装JDK1.更改主机名字2.配置密钥 免密登录3.映射地址4 .解压并移动5.配置环境变量6.分发到各个节点二、安装HADOOP1.解压并且移动2.配置环境变量3.配置.sh和.xml文件i.创建临时文件ii.配置hadoop-env.shiii.配置core-site.xmlVI.配置hdfs-site.xmlV. 配置yarn-site.xmlIV.配置mapred-site.xml.templateIIV.配置slaves文件4.格式文件系统5启动节点并且查看进程6.查看网页集群原创 2022-04-22 11:55:47 · 2700 阅读 · 14 评论 -
Spark框架--如何在hive环境查看字段名
任务步骤:步骤:第一步:进入当前终端第二步:把包打包到集群上第三步:连接master第四步:进入OPT目录下第五步:进入hive环境第六步:进入ods层第七步:输入SQL条件(查看字段名)第八步:输入查询SQL条件第九步:查看结果步骤:第一步:进入当前终端第二步:把包打包到集群上第三步:连接master第四步:进入OPT目录下第五步:进入hive环境第六步:进入ods层第七步:输入SQL条件(查看字段名)第八步:输入查询SQL条件第九步:查看结果...原创 2022-04-15 11:28:09 · 2619 阅读 · 4 评论 -
Spark框架——SparkSQL的运用及方法
package sqlimport org.apache.avro.ipc.specific.Personimport org.apache.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.sqlimport org.apache.spark.sql.catalyst.InternalRowimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession.原创 2022-03-30 10:53:55 · 624 阅读 · 2 评论 -
Spark框架——文件的写入与修改 |CSDN创作
import org.apache.spark.sql.{DataFrame, DataFrameReader, SaveMode, SparkSession}import org.junit.Testclass RearWrite {// @Test// def reader1(): Unit ={// //1.创建SparkSession// val spark: SparkSession =SparkSession.builder()// .appName(.原创 2022-03-30 10:50:31 · 514 阅读 · 0 评论 -
Spark框架——SparkSql入门(基本信息的调用)
SparkSql入门(基本信息的调用)原创 2022-03-29 11:18:14 · 6245 阅读 · 0 评论 -
Spark框架—RDD分区和缓存
Spark框架—RDD分区和缓存AccessLogAgg.scalaActionOp.scalaTransformationOp.scalaWorldCount.scala日志输出AccessLogAgg.scalaimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.catalyst.util.StringUtilsimport org.apache.spark.{SparkConf, SparkContext}import or原创 2022-03-28 21:46:39 · 5038 阅读 · 0 评论 -
Spark框架—RDD算式mapPartitionsWithIndex与filter的用法
@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ println("index:"+index) iter.foreach(item=>println(item)) iter }) .collect(.原创 2022-03-27 21:21:38 · 1819 阅读 · 2 评论 -
Spark框架——RDD算子mapPartitions迭代器(基于Scala语言)
/*mapPartitions 和map算子是一样的,只不过map是针对每一条数据进行转换,mapPartitions 针对一整个分区的数据进行转换1.map的func的参数是单条数据,mapPartitions的fnc的参数是一个集合(一个分区中的整个所有的数据)2.map的func返回值也是单条数据,mapPartitions返回值是一个集合*///collect一般都在定义的函数外面收集class TransformationOp { val conf: SparkConf =ne原创 2022-03-27 21:17:30 · 5565 阅读 · 0 评论 -
Spark框架——RDD入门及三种算子
RDD入门及三种算子//Map算子 @Test def mapTest(): Unit = { //1.创建RDD val rdd1: RDD[Int] = sc.parallelize(Seq(1, 2, 3)) //2.执行Map操作 val rdd2: RDD[Int] = rdd1.map(item => item * 10) //3.得到结果 val result: Array[Int] = rdd2.collect()原创 2022-03-25 16:29:50 · 3119 阅读 · 3 评论 -
Spark框架--初步运用RDD算式
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.junit.{Before, Test}class WordCount { def main(args: Array[String]): Unit = { //1. Spark Context 如何编写 //1.创建SparkContext val conf = new SparkConf(原创 2022-03-25 15:08:02 · 3442 阅读 · 0 评论 -
初学Spark(开源框架)——基于Scala语言
Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。 它没有自己的存储系统,但会在其他存储系统,如HDFS,或其他热门存储,如 Amazon Redshift 、 Amazon S3 、Couchbase、Cassandra等之上运行分析。val service = new UsersService//读取整个表val allRdd:RDD[Users] = service.selectAll()//字段筛选val allRdd:RDD[Users] = service.原创 2022-03-24 16:41:55 · 813 阅读 · 0 评论