![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 89
Therefore丶
大数据与人工智能
展开
-
《Spark 官方文档》监控和工具
一、监控和工具监控Spark应用有很多种方式:web UI,metrics 以及外部工具。二、Web界面每个SparkContext都会启动一个web UI,其默认端口为4040,并且这个web UI能展示很多有用的Spark应用相关信息。包括:一个stage和task的调度列表 一个关于RDD大小以及内存占用的概览 运行环境相关信息 运行中的执行器相关信息你只需打开浏览器,输入 http://<driver-node>:4040 即可访问该web界面。如果有..转载 2020-08-13 16:20:42 · 339 阅读 · 0 评论 -
Spark on Elasticsearch数据写入一致性问题
摘要:脏数据对数据计算的正确性带来了很严重的影响。因此,我们需要探索一种方法,能够实现Spark写入Elasticsearch数据的可靠性与正确性。一、概述 Spark与Elasticsearch(es)的结合,是近年来大数据解决方案很火热的一个话题。Spark是出色的分布式计算引擎,Elasticsearch(es)是出色的搜索引擎。 近年来,越来越多的成熟方案落地到行业产品中,包括我们耳熟能详的Spark+ES+HBase日志分析平台。 目前,华为云数...原创 2020-08-13 14:03:37 · 978 阅读 · 0 评论 -
记Spark on Yarn集群错误汇总
我们经常使用Sparkonyarn的模式进行开发和任务调度,但是常常会出现各种错误。 本文将这些问题汇总并提出解决: 先贴一个spark提交任务到yarn的脚本:1、spark找不到main类:20/06/29 09:24:21 ERROR yarn.ApplicationMaster: Uncaught exception: java.lang.ClassNotFoundException: src/main/scala/log_anal...原创 2020-06-29 11:59:29 · 5302 阅读 · 1 评论 -
spark DataFrame数据插入mysql性能优化(源码解析)
这里说的Spark包含SparkCore/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。方法一:把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致) Dataset<Row> resultDF = spark.sql("select hphm,clpp,clys,tgsj,kkbh from t_cltgxx where id in (" + id.原创 2020-06-18 13:54:43 · 1554 阅读 · 0 评论 -
Spark -- 对DataFrame增加一列索引列(自增id列)==》(解决出现ID自增且唯一,但是不呈现自然数递增的问题)
Spark DataFrame 添加自增id 在用Spark 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在使用mmlspark的LightGBMRanker时也需要指定一列int/long类型的id列,下面是几种实现方式。方式一:利用RDD的 zipWithIndex算子,官网介绍如下// 在原Schema信息的基础上添加一列 “id”信息val schema: StructType = dataframe.schema.a原创 2020-05-26 09:48:11 · 2667 阅读 · 0 评论 -
SparkSQL之dataframe写入mysql报错解决
一.异常情况及解决方案 在使用Spark SQL的dataframe数据写入到相应的MySQL表中时,报错Table already exists.,错误信息如下: 代码的基本形式为:df.write.jdbc(url, result_table, prop) 根据图片中的报错,搜索资料,得知是由于Spark SQL 中的Save Mode导致的,Spark SQL的官...原创 2020-01-10 10:20:52 · 1103 阅读 · 0 评论 -
详解Spark Java使用DataFrame的foreach/foreachPartition
Spark已更新至2.x,DataFrame归DataSet管了,因此API也相应统一。本文不再适用2.0.0及以上版本。 DataFrame原生支持直接输出到JDBC,但如果目标表有自增字段(比如id),那么DataFrame就不能直接进行写入了。因为DataFrame.write().jdbc()要求DataFrame的schema与目标表的表结构必须完全一致(...原创 2020-01-07 08:58:00 · 6178 阅读 · 0 评论 -
spark运行异常及解决:Exception from container-launch.Exit code: 1 Stack trace: ExitCodeException exitCode=1:
yarn主界面状态显示failed,显示如下:Diagnostics: Exception from container-launch.Container id: container_1574829788169_0011_02_000001Exit code: 1Stack trace: ExitCodeException exitCode=1: at org.apache.h...原创 2019-11-29 16:12:01 · 4939 阅读 · 0 评论