自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Maven setting.xml 配置

setting.xml配置

2022-09-09 16:47:02 235 1

原创 Confluent介绍

Confluent目前提供了社区版和商业版两个版本,社区版永久免费,商业版面向企业收费。社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务。商业版为企业提供了控制面板、负载均衡,跨中心数据备份、安全防护等高级特性。

2022-09-09 16:06:00 1629

原创 获取hbase中表的记录数

获取hbase中表的记录数 /** * 获取hbase中表的记录数 , 此方法查询记录数较快 可到秒级 * * @param zkIp * @param zkPort * @param hbaseZNode * @param name * @return */ public static long getTableRowNum(String zkIp,

2020-12-22 15:46:24 1057

原创 PostgreSQL下载安装

PostgreSQL下载安装1、下载2、安装3、ip设置1、下载LINUX为例:1、pgsql官网地址:https://www.postgresql.org/下载页面地址:https://www.enterprisedb.com/download-postgresql-binaries2、点击download,选择对应系统及相应的Linux发行版3、ctrl+f 直接搜索 tar.gz archive ,点击进入4、选择版本下载2、安装1、上传安装包到服务器:rz -b 2、

2020-09-23 17:39:10 3022

原创 Java解析Cron表达式

Java解析Cron表达式1、需求2、实现2.1、Java代码2.2、前端代码1、需求例子:表中Cron表达式字段:页面显示:2、实现2.1、Java代码/**** * todo: 获取cron表达式的值 * @return */ @Action public String getCronExpValue() { HttpServletRequest request = ActionContext.getActionContext

2020-09-23 17:01:03 3858

原创 Hbase 多张表数据合并

1、Spark编码实现:spark读hbase基于TableInputFormat设置查询条件,获取需求数据,在写入hbasebulk load方式scala编码实现:package com.cbp.hbaseTableMergeimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}import org.apache.hadoop.hbase.

2020-07-02 17:39:18 1648

原创 Saprk读取hive表数据处理后写入Hbase表

1、put方式scala编码实现:package com.nbdpt.work4_hive2hbase2019import com.nbdpt.util.BaseUtilimport org.apache.hadoop.hbase.client.{ConnectionFactory, Get, Put}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.T

2020-07-02 17:17:02 284

原创 Spark读取csv和parquet文件将数据写入Hbase表

1、Saprk读取csv文件将数据写入Hbase表中编码实现。scala编码:package com.cbp.spark_hbaseimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.client.ConnectionFactoryimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.{HBaseCon

2020-07-02 16:25:50 861

原创 Spark读取Hbase数据保存为csv和parquet格式

利用Spark SQL的DataFream 将hbase表数据保存为csv或者parquet格式文件。代码:package com.cbp.spark_hbaseimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.h

2020-07-02 16:10:49 743

转载 Spark-shuffle调优

调优概述      大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则,千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原.

2020-06-17 19:46:38 247

转载 Spark-资源调优

      在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚至根本无法运行。因此我

2020-06-17 19:40:51 161

转载 Spark-开发调优

Spark性能优化:开发调优篇 1、前言      在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),...

2020-06-16 15:22:35 121

转载 Spark-数据倾斜调优

Spark(三)Spark之数据倾斜调优 一 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。1.1数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。...

2020-06-16 14:51:37 158

原创 Hbase常用shell记录

命令不用就会忘记,做个记录,工作中用到的!# 启动关闭启动hbase:./bin/start-hbase.sh 停止hbase:./bin/stop-hbase.sh启动shell脚本:./bin/hbase shell命令查看:help查看当前登录用户及用户组:whoami# 创建表创建表:create 'test', { NAME => 'cf', VERSIONS => 3 , COMPRESSION => 'SNAPPY', DATA_BLOCK_ENCODING

2020-06-15 17:07:26 347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除