Spark
文章平均质量分 79
Spark
千叶公子
不要幻想而不行动,否则永远也体会不到收获果实时的喜悦。
展开
-
Hbase 多张表数据合并
1、Spark编码实现:spark读hbase基于TableInputFormat设置查询条件,获取需求数据,在写入hbase bulk load方式scala编码实现: package com.cbp.hbaseTableMerge import org.apache.hadoop.fs.Path import org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName} import org.apache.hadoop.hbase.原创 2020-07-02 17:39:18 · 1652 阅读 · 0 评论 -
Saprk读取hive表数据处理后写入Hbase表
1、put方式scala编码实现: package com.nbdpt.work4_hive2hbase2019 import com.nbdpt.util.BaseUtil import org.apache.hadoop.hbase.client.{ConnectionFactory, Get, Put} import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.mapreduce.T原创 2020-07-02 17:17:02 · 284 阅读 · 0 评论 -
Spark读取csv和parquet文件将数据写入Hbase表
1、Saprk读取csv文件将数据写入Hbase表中编码实现。 scala编码: package com.cbp.spark_hbase import org.apache.hadoop.fs.Path import org.apache.hadoop.hbase.client.ConnectionFactory import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.hadoop.hbase.{HBaseCon原创 2020-07-02 16:25:50 · 863 阅读 · 0 评论 -
Spark读取Hbase数据保存为csv和parquet格式
利用Spark SQL的DataFream 将hbase表数据保存为csv或者parquet格式文件。 代码: package com.cbp.spark_hbase import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.client.Result import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org.apache.h原创 2020-07-02 16:10:49 · 748 阅读 · 0 评论 -
Spark-shuffle调优
调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则,千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原.转载 2020-06-17 19:46:38 · 247 阅读 · 0 评论 -
Spark-资源调优
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我转载 2020-06-17 19:40:51 · 161 阅读 · 0 评论 -
Spark-开发调优
Spark性能优化:开发调优篇 1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),...转载 2020-06-16 15:22:35 · 121 阅读 · 0 评论 -
Spark-数据倾斜调优
Spark(三)Spark之数据倾斜调优 一 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 1.1数据倾斜发生时的现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 ...转载 2020-06-16 14:51:37 · 161 阅读 · 0 评论