spark
文章平均质量分 73
MusicDancing
这个作者很懒,什么都没留下…
展开
-
spark 日期参数传递
11package com.zz.spark.dm.tagimport org.apache.spark.sql.{DataFrame, SparkSession}import java.text.SimpleDateFormatimport java.util.{Calendar, Date}object Demo1 { def main(args: Array[String]): Unit = { val spark = SparkSession.builder原创 2022-04-27 10:53:54 · 1680 阅读 · 0 评论 -
spark demo 运行
1.package com.zz.spark.sparksqlimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 自定义DataFrame注册成数据表,查询数据表 */object Demo1 { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName(原创 2022-04-07 18:49:23 · 2331 阅读 · 1 评论 -
Spark Streaming 读取Kafka数据源
1. 读取Kafaka数据源1.1 Kfaka介绍1. Kfaka是一种高吞吐量的分布式发布订阅消息系统,用户通过Kafaka系统可以发布大量的消息,同时也能实时订阅消费消息。2. Kafka 可以同时满足在线实时处理和批量离线处理;3. 在公司的大数据生态系统中,可以把Kafka作为数据交换枢纽,不同类型的分布式系统1.2 Kfaka的安装与准备工作1.3 Spark准备工作...原创 2021-09-09 11:33:32 · 1027 阅读 · 0 评论 -
Spark MLlib 实现LR与DT
1. 逻辑回归分类器1.1 数据处理只使用其中的两个特征,实现二分类package com.zz.sparkimport org.apache.spark.sql.{Row, SparkSession, functions}import org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluatorimport o原创 2021-09-05 22:50:09 · 288 阅读 · 0 评论 -
Spark MLlib简介
1. Spark 机器学习库MLlib从1.2 版本后被分为两个包1. spark.mllib历史较长,包含了基于RDD的原始算法API。2. spark.ml提供了基于DataFrames高层次的API,可以用来构建ML Pipeline,弥补了MLlib库的不足,向用户提供了一个基于DF的ML 工作流式API。...原创 2021-09-04 22:55:18 · 7060 阅读 · 0 评论 -
Spark编程经典综合案例
1. 求TOP值2. 求最大值最小值3. 文件排序4. 二次排序5. 连接操作1. WordCount程序解析原创 2021-09-04 20:38:19 · 3182 阅读 · 1 评论 -
Spark数据读写--HDFS、HBase、Json
1. 共享变量2. 数据读写2.1 本地文件的读写读文件import org.apache.spark.sql.SparkSessionval inputPath = "file:///Users/zenmen/Desktop/aa.sh"val rdd = spark.sparkContext.textFile(inputPath)上面代码执行后,因为Spark的惰性机制,并不会真正执行,所以即使路径错误,此时也不会报错。写文件val outputPath = "/U原创 2021-09-04 17:23:10 · 604 阅读 · 0 评论 -
RDD编程
1. RDD编程概述1.1 RDD创建1.1.1 textFile(URI) 从文件系统中加载数据创建RDDimport org.apache.spark.sql.SparkSessionobject Test { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName("wc") .maste原创 2021-09-04 07:49:37 · 349 阅读 · 0 评论 -
Spark实现数据生产到parquet及hive表
1. spark-shell 执行脚本spark-shell 中相当于定义了一个Object并提高main(),且代码都是在其中执行,不需额外定义Object。test.py//import org.apache.spark.sql.types._import org.apache.spark.sql.Rowimport org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().getOrCreate()s原创 2021-09-02 16:44:02 · 948 阅读 · 0 评论 -
Spark Streaming 简介
1. 流计算概述1.1 流计算简介数据仓库中存放的大量历史数据就是静态数据,可以利用数据挖掘和OLAP分析工具从静态数据中找到对企业有价值的信息。而流数据表现为数据以大量、快速、时变的流形式持续到达。如PM2.5检测、电子商务网站用户点击流。批量计算和实时计算流计算: 实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息。数据价值随着时间流逝而降低(如用户点击流),因此当事件出现时就应该立即处理,而不是缓存起来进行批量处理。流计算系统要求:高性能、海量式、实时..原创 2021-08-30 21:05:34 · 1058 阅读 · 0 评论 -
Spark SQL
1. 简介Spark SQL架构 2. DataFrame与RDD的区别3. DataFrame的创建4. 从RDD转换得到DataFrame5 数据读取与保存原创 2021-08-29 19:36:22 · 325 阅读 · 0 评论 -
Spark的安装和使用方法
1. 安装Spark2. 在Spark shell中运行代码Spark Shell本身就是一个Driver,Driver包mian()和分布式数据集。启动Spark Shell 命令:./bin/spark-shell --master <master-url>Spark的运行模式取决于传递给SparkContext的Master URL的值,可以有如下选择:1. local 使用一个Worker线程来本地化运行Spark,非并行。2. local[*] 使用原创 2021-08-29 12:10:40 · 5058 阅读 · 0 评论 -
RDD概念
1. 设计背景存在的问题1. 许多迭代式算法(ML、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果。2. 目前的MR框架都是把中间结果写入到HDFS,带来大量的数据复制、磁盘IO和序列化开销。RDD的优势1. RDD提供了一个抽象的数据架构;2. 不需担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理;3. 不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储。2. RDD概念一个RDD就是一个分布式对原创 2021-08-28 21:59:37 · 995 阅读 · 0 评论 -
Spark简介
1. Spark 与 Hadoop 比较1.1 Haoop 的缺点1. 表达能力有限;2. 磁盘IO开销大;3. 延迟高;4. 任务之间的衔接涉及IO开销;5. 在前一个任务执行完之前,其他任务就无法开始,难以胜任复杂、多阶段的计算任务。1.2...原创 2021-08-27 23:23:58 · 398 阅读 · 1 评论 -
计算用户上传好友PR分(scala版)
SparkPageRank.scalaimport org.apache.spark.sql.SparkSessionobject SparkPageRank { def showWarning(): Unit = { System.err.println( """WARN: This is a naive implementation of PageRank and is given as an example!原创 2021-08-24 19:59:49 · 99 阅读 · 0 评论 -
spark 实现XGB花瓣预测(多分类)
11package com.fwmagic.spark.xgboostimport ml.dmlc.xgboost4j.scala.spark.{XGBoostClassificationModel, XGBoostClassifier}import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluatorimport原创 2021-05-27 15:14:18 · 961 阅读 · 0 评论 -
大数据集群配置信息
1.大数据集群各组件版本组建 版本 Hadoop 2.6.0 Spark 2.1.0 Hive 1.2.1 Scala 2.11.8 Java 1.8.0_144 CDH 5.13.0 2.Yarn的队列与资源队列 webui(访问需先申请windows 远程桌面) 资源 zz http://172.18.x.xx:8088 zz_aa、zz_bb等一系列以zz为前缀的账号均共享zz池,2560vcor原创 2020-12-16 16:04:07 · 117 阅读 · 0 评论