oo寻梦in记
{Thanksful , Self-confidence , Kind , Patient}
展开
-
【大数据】-- spark 读取 Maxcompute 优化
目录1、情景再现2、Locality Level 知识点介绍3、问题分析与解决3.1、分析3.2、解决 当使用 Spark 2.3 读取 odps (Maxcompute)表时,发现下游 rdd 的位置优先处于 RACK_LOCAL,说明数据在同一机架的不同节点上。需要通过网络传输数据及文件 IO,这个 Locality Level 比 NODE_LOCAL 慢。 Spark 程序的 RDD 数据处理流如下:在 spark UI 上看到 Task 的 Locality Lev原创 2024-11-19 10:49:34 · 391 阅读 · 0 评论 -
【Spark】-- spark com.crealytics 读写 excel 实现
这些选项用于配置从 Excel 文件中读取数据的行为。这些选项用于配置将数据写入 Excel 文件时的行为。原创 2024-11-12 17:50:09 · 380 阅读 · 0 评论 -
【Spark 基础】-- 序列化和反序列化
关于序列化和反序列化的定义,在这篇文章中有详细介绍,此处简要说明: 我们也可以借助下图来理解序列化和反序列化的过程。 Spark 提供了 2 个序列化库 (Java serialization 和 Kyro serialization),此外用户也可以自定义实现序列化: 我们可以对比 Spark 使用了 Kyro Serialization 和 未使用 Kyro Serialization 时,他们的网络传输内容大小。 默认的序列化实现,只要用户的 class原创 2023-12-04 16:10:04 · 383 阅读 · 0 评论 -
【Spark基础】-- 理解 Spark shuffle
当前,Spark 有3种不同类型的 shuffle 实现。每种实现方式都有他们自己的优缺点。在我们理解 Spark shuffle 之前,需要先熟悉 Spark 的 execution model 和一些基础概念,如:MapReduce、逻辑计划、物理计划、RDD、Partitions、、Stage、tasks、ShuffleMapStage 和 ResultStage。原创 2023-12-04 15:29:19 · 382 阅读 · 0 评论 -
【Spark基础】-- 宽窄依赖
要理解宽窄依赖,首先我们需要了解 Transformations,什么是 Transformations?在 Spark 中,核心的数据结构是不可变的,这意味着它们一旦创建就不能更改。这看起来可能是个比较奇怪的概念,如果不能更改,那要怎么使用它呢?要 "change"一个 DataFrame,我们必须提示 Spark 如何将我们拥有的 DataFrame 修改成我们想要的样子。这些操作称为 Transformations。Transformations 是使用 Spark 表达业务逻辑的核心。原创 2023-11-30 11:30:43 · 341 阅读 · 0 评论 -
【Spark基础】-- RDD、DataFrame 和 Dataset 的对比
DataFrame 支持从最流行的格式中读取数据,包括 JSON 文件、Parquet 文件、Hive 表。它可以从本地文件系统、分布式文件系统(HDFS)、云存储(S3)和通过JDBC连接的外部关系数据库系统中读取数据。此外,通过 Spark SQL 的外部数据源 API,DataFrame 可以扩展以支持任何第三方数据格式或来源。现有的第三方扩展已经包括 Avro、CSV、ElasticSearch 和 Cassandra。原创 2023-11-29 16:45:29 · 990 阅读 · 0 评论 -
【Spark基础】-- RDD 转 Dataframe 的三种方式
1、通过 StructType 创建 Dataframe(3、通过定义 schema 类创建 DataFrame。2、通过 RDD 推断创建 DataFrame (强烈推荐使用这种方法。原创 2023-11-28 14:33:51 · 1470 阅读 · 0 评论 -
【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给 Apache 基金会。Hive是基于Hadoop的数据仓库工具,可以将结构化数据映射为一张表,提供类似SQL语句查询功能本质:将Hive SQL转化成MapReduce程序。Spark SQL主要用于结构型数据处理,它的前身为Shark,在Spark 1.3.0版本后才成长为正式版,可以彻底摆脱之前Shark必须依赖HIVE的局面。原创 2023-03-13 11:46:49 · 3221 阅读 · 2 评论 -
【大数据】-- Spark 稠密向量与稀疏向量
在机器学习中,算法工程师会经常用到向量,包括对特征的存储,优化的计算等等。但是具体实现时,经常会采用两种方式存储向量。使用这两种不同的存储结构的原因是机器学习中的特征很多时候是高维空间中的元素。原创 2023-03-02 14:24:25 · 702 阅读 · 0 评论 -
【大数据】-- Spark 创建 tmp 目录的原因
一、背景 数据流向:Spark 读取 ODPS 数据,然后写入阿里云 OSS。 现象:在使用阿里云 dataworks 调度 Spark 任务时,发现Spark task 全部结束5分钟以后,整体的 job 没有显示 SUCCESSED。于是去查看程序对应的OSS 输出目录,发现 _temporary 目录下的文件正在复制到目标目录,二不是 move 操作,导致花费时间过多。PS:输出到 OSS 的文件数量要合适,太多会导致过多的花费!二、问题 为什...原创 2022-03-25 10:53:11 · 2183 阅读 · 0 评论 -
【Spark版本更新】--Spark-3.2.0 发布说明
Apache Spark 官方在 2021 年 10 月 13 日发布了 3.2.0 版本,Jira release 页面点击:链接。以下是 Release Notes,供参考:Sub-task[SPARK-26164] - [SQL] 允许 FileFormatWriter 写入多个分区/存储桶而无需排序 [SPARK-26341] - 在 Stages 选项卡中公开阶段级别的执行程序内存指标 [SPARK-26346] - 将镶木地板升级到 1.11.1 [SPARK-26...原创 2021-10-21 15:56:18 · 2491 阅读 · 0 评论 -
【Spark基础】-- 视图(view)
目录1、视图(view)介绍1.1 定义1.2 作用2、视图的分类3、视图操作4、注意事项5、参考1、视图(view)介绍1.1 定义从一个或多个表导出的虚拟的表,其内容由查询定义。 具有普通表的结构,但不实现数据存储;多表视图一般用于查询,不会改变基本表的数据。1.2 作用操作被简化,把经常使用的数据定义为视图,使用方便。 安全性高,用户对视图不可以随意的更改和删除,可以保证数据的安全性。 逻辑上的独立性,屏蔽了真实表的结构带来的影响,视图可使应用程序和原创 2021-08-11 10:33:49 · 3023 阅读 · 0 评论 -
【Spark 基础】-- 如何避免 Yarn ApplicationMaster 重启
1、背景某天发现一个 Spark streaming 程序有一批数据丢失,但是 Spark 程序本身没有 kill 。经过排查发现是由于 Yarn applicationMaster 重启导致缺少了一个批次的数据。2、避免 yarn application master 重试的做法设置以下参数:spark.hadoop.yarn.resourcemanager.am.max-attempts=1spark.yarn.maxAppAttempts=1...原创 2021-01-29 16:15:20 · 641 阅读 · 0 评论 -
【Spark 基础】-- 重试级别及说明
1 级别一: ApplicationMaster 重试作用:避免 job 失败一次后,就马上 stop。参数:spark.yarn.maxAppAttempts:默认为yarn.resourcemanager.am.max-attempts的值,如果要设置,需小于它的值 yarn.resourcemanager.am.max-attempts:默认为 2在Spark on Yarn 时,读取 maxAppAttempts 参数和判断该参数的spark源码,代码位于Application...原创 2020-10-26 14:32:22 · 5284 阅读 · 0 评论 -
【Spark SQL】-- 集成 ElasticSearch 的相关配置
1.版本Spark: 2.4.0 ES:5.6.122.配置说明https://www.elastic.co/guide/en/elasticsearch/hadoop/5.6/configuration.htmlhttps://www.elastic.co/guide/en/elasticsearch/hadoop/5.6/spark.html3.配置详情/* * Licensed to Elasticsearch under one or more contributor.原创 2020-05-10 17:57:46 · 1548 阅读 · 0 评论 -
【Structured Streaming】-- 输出模式
环境spark 2.4.0scala 2.11.8jdk 1.8http://spark.apache.org/docs/2.4.0/structured-streaming-programming-guide.html#output-modes原创 2020-04-24 19:17:32 · 563 阅读 · 0 评论 -
[MongoDB基础]-- Spark 写 Dataframe 数据到 Mongo
如何将 Dataframe 数据写入 Mongo1、准备2、输入数据3、代码4、查询5、参考文档1、准备环境:Spark 2.3.1 + Mongo 4.2.3 +scala -2.11.8+ jdk 1.8.0 + Hadoop-2.7.3业务:将 json 数据 使用 spark 读出来,然后写入 mongo2、输入数据json 格式{ "name": "BeJson",...原创 2020-03-22 16:54:29 · 1572 阅读 · 0 评论 -
[Spark 学习]-- 1.4 Spark cluster manager
原创 2019-12-04 10:53:45 · 741 阅读 · 0 评论 -
[Spark 学习]--1.3 Spark practice
下载链接:https://pan.baidu.com/s/1MOrXupl__rFe_uj6pT-82Q 密码:f1po参考:https://blog.csdn.net/high2011/article/details/76651290项目地址:https://github.com/yangjf2019/my-app...原创 2019-10-21 09:04:31 · 375 阅读 · 0 评论 -
[Spark应用]-- spark 二次排序实现
一、文本格式(sort.txt)1 52 43 61 32 1 二、编写类package com.scala/** * scala处理二次排序的类 * 需要有参数 */class SecondSortByK(val first:Int,val second :Int) extends Ordered[SecondSortByK] with Serializable...原创 2016-06-04 15:27:38 · 1571 阅读 · 0 评论 -
[Spark进阶]-- 广播变量
第一种:不可变类型package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * scala实现广播变量(第一种:不可变类型) * 增加后的结果:2 增加后的结果:4 增加后的结果:6 增加后的结果:8 增加后的结果:10 */...原创 2016-06-04 15:34:02 · 7396 阅读 · 0 评论 -
[Spark应用]-- 实现分组取topN
一、文本格式class1 90class2 56class1 87class1 76class2 88class1 95class1 74class2 87class2 67class2 77二、直接献上代码package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark....原创 2016-06-04 15:39:52 · 5412 阅读 · 2 评论 -
[Spark基础]-- spark中join和group操作
操作举例如下package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDD.rddToPairRDDFunctions/** * scala测试join和cogroup:join是排列组合,而cgroup是分组...原创 2016-06-04 15:42:40 · 3306 阅读 · 0 评论 -
[Spark应用]-- 实现pageRank
使用 Spark 实现 PageRank 算法package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * scala实现pageRank算法 * * Computes the PageRank of URLs from an input file. In...原创 2016-06-04 15:44:41 · 909 阅读 · 2 评论 -
[Spark应用]-- 实现pi粗略计算
实现如下package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * scala实现打印pi 原理:使用概率估计pi的值 */object ScalaPi { def main(args:Array[String]):Unit={ v...原创 2016-06-04 15:50:38 · 869 阅读 · 0 评论 -
[Spark基础]-- 获取前3个最大值
一、文本内容35671456903二、代码实现package com.scalaimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.HashPartitioner/** * scala实现获取单列数据的前3个最高值...原创 2016-06-04 16:21:42 · 8927 阅读 · 2 评论 -
[Spark应用]-- 实现单词统计(数据源在hdfs上)
实现如下package com.scala.myimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.SparkConfimport org.apache.spark.streaming.Durations/** * scala版本的hdfs上wordCount */object H...原创 2016-06-04 16:26:15 · 1889 阅读 · 0 评论 -
[Spark streaming举例]-- 实时统计并且存储到mysql数据库中
举例package com.scala.myimport org.apache.spark.SparkConfimport org.apache.spark.streaming.Durationsimport org.apache.spark.streaming.StreamingContext/** * * @author root * 测试步骤: * 1\打开h...原创 2016-06-04 17:20:25 · 10963 阅读 · 0 评论 -
[Spark streaming举例]--实现过滤黑名单
举例如下package com.scala.myimport org.apache.spark.SparkConfimport org.apache.spark.streaming.Durationsimport org.apache.spark.streaming.StreamingContext/** * * @author root * 过滤黑名单 ...原创 2016-06-04 17:22:14 · 2373 阅读 · 0 评论 -
[Spark streaming举例]-- 版本的单词统计
直接上代码、注释package com.scala.myimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Durationi...原创 2016-06-04 18:18:15 · 967 阅读 · 0 评论 -
[Spark streaming举例]-- 统计一段时间内的热搜词
如下package com.my.scalaimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Durations, StreamingContext}/** * * 使用开窗函数实现spark streaming,版本统计一段时间内前三的热搜词汇 * * 测试结果:测试成功 *...原创 2016-06-04 18:44:05 · 5803 阅读 · 0 评论 -
[Spark streaming举例]-- 消费kafka中的数据
第一种方式package com.kafka.my.scalaimport org.apache.spark.SparkConfimport org.apache.spark.streaming.Durationsimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.ka...原创 2016-06-04 18:56:34 · 6441 阅读 · 2 评论 -
[Spark基础]-- Standalone集群安装(h15\h16\h18上)
Spark集群安装(h15\h16\h18上)注意:一定要两两之间设置免密登陆1\配置zookeeper成功后,下载spark-1.3.1上传解压,为了避免命令和hadoop冲突,不用配置环境变量2\先配置h15,(1)#cp slaves.template slaves(2)#cp spark-env.sh.template spark-env.sh(3)修改文件/hom...原创 2016-06-07 09:53:09 · 983 阅读 · 0 评论 -
[Spark基础]-- RDD解释
How do I make clear the concept of RDD in Spark? recently, I spent a lot time on the paper RDD: A Fault-Tolerant Abstraction for in-memory cluster computing. But seems that I still didn't catch so...转载 2016-08-04 23:48:30 · 768 阅读 · 0 评论 -
[Spark streaming举例]-- yarn-cluster运行spark streaming问题
一、本地运行spark出现的错误Exception in thread "main" java.lang.VerifyError:class com.fasterxml.jackson.module.scala.ser.ScalaIteratorSerializer overrides final method withResolved.(Lcom/fasterxml/jackson/...原创 2016-07-17 09:51:35 · 9673 阅读 · 2 评论 -
[Hadoop基础]-- 执行yarn命令报权限问题错误
# yarn application -kill application_1469066281048_9314 16/08/08 10:39:23 INFO client.RMProxy: Connecting to ResourceManager at master-27.dev.cluster.enn.cn/10.1.150.7:803216/08/08 10:39:24 WARN...原创 2016-08-08 10:51:07 · 4467 阅读 · 0 评论 -
[Spark进阶]-- spark RDD中foreachPartition和foreach说明
主题:RDD的foreachPartition/foreach的操作 说明:这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.一、foreach的操作foreach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv...转载 2016-09-14 16:06:29 · 38821 阅读 · 1 评论 -
[Spark应用]-- 自定义spark udf计算单词的长度
Spark Sql的UDF函数非常好用,相比Hive,很简洁 import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.types.StructTypeimport or...原创 2016-05-30 19:53:54 · 1693 阅读 · 0 评论 -
[Spark基础]-- 查看spark on yarn的日志和程序状态的方法
一、在命令行使用命令查看(1)查看日志:yarn logs -applicationId application_1469094096026_26612(2)查看状态:yarn applicaiton -status application_1469094096026_26612红色字体代表appID:在UI界面中寻找该id 二、通过spark UI查询 ...原创 2016-08-05 21:13:29 · 23076 阅读 · 0 评论 -
[Spark基础]-- 缓存级别源码(1.6.2)
源码如下/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this work for additional information regardi...转载 2016-09-25 20:04:51 · 821 阅读 · 0 评论