千叶公子-CSDN博客

原创 Confluent介绍

Confluent目前提供了社区版和商业版两个版本，社区版永久免费，商业版面向企业收费。社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务。商业版为企业提供了控制面板、负载均衡，跨中心数据备份、安全防护等高级特性。

2022-09-09 16:06:00 1669

原创获取hbase中表的记录数

获取hbase中表的记录数 /** * 获取hbase中表的记录数 , 此方法查询记录数较快可到秒级 * * @param zkIp * @param zkPort * @param hbaseZNode * @param name * @return */ public static long getTableRowNum(String zkIp,

2020-12-22 15:46:24 1069

PostgreSQL下载安装1、下载2、安装3、ip设置1、下载LINUX为例：1、pgsql官网地址：https://www.postgresql.org/下载页面地址：https://www.enterprisedb.com/download-postgresql-binaries2、点击download，选择对应系统及相应的Linux发行版3、ctrl+f 直接搜索 tar.gz archive ，点击进入4、选择版本下载2、安装1、上传安装包到服务器：rz -b 2、

2020-09-23 17:39:10 3130

原创 Java解析Cron表达式

Java解析Cron表达式1、需求2、实现2.1、Java代码2.2、前端代码1、需求例子：表中Cron表达式字段：页面显示：2、实现2.1、Java代码/**** * todo: 获取cron表达式的值 * @return */ @Action public String getCronExpValue() { HttpServletRequest request = ActionContext.getActionContext

2020-09-23 17:01:03 3885

原创 Hbase 多张表数据合并

1、Spark编码实现：spark读hbase基于TableInputFormat设置查询条件，获取需求数据，在写入hbasebulk load方式scala编码实现：package com.cbp.hbaseTableMergeimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.{HBaseConfiguration, KeyValue, TableName}import org.apache.hadoop.hbase.

2020-07-02 17:39:18 1663

原创 Saprk读取hive表数据处理后写入Hbase表

1、put方式scala编码实现：package com.nbdpt.work4_hive2hbase2019import com.nbdpt.util.BaseUtilimport org.apache.hadoop.hbase.client.{ConnectionFactory, Get, Put}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.T

2020-07-02 17:17:02 289

原创 Spark读取csv和parquet文件将数据写入Hbase表

1、Saprk读取csv文件将数据写入Hbase表中编码实现。scala编码：package com.cbp.spark_hbaseimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.client.ConnectionFactoryimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.{HBaseCon

2020-07-02 16:25:50 870

原创 Spark读取Hbase数据保存为csv和parquet格式

利用Spark SQL的DataFream 将hbase表数据保存为csv或者parquet格式文件。代码：package com.cbp.spark_hbaseimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.h

2020-07-02 16:10:49 751

转载 Spark-shuffle调优

调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此大家务必把握住调优的基本原则，千万不要舍本逐末。下面我们就给大家详细讲解shuffle的原.

2020-06-17 19:46:38 250

转载 Spark-资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪种情况，都会导致Spark作业的运行效率低下，甚至根本无法运行。因此我

2020-06-17 19:40:51 165

转载 Spark-开发调优

Spark性能优化：开发调优篇 1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），...

2020-06-16 15:22:35 124

转载 Spark-数据倾斜调优

Spark（三）Spark之数据倾斜调优一调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。1.1数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时。这种情况很常见。...

2020-06-16 14:51:37 165

原创 Hbase常用shell记录

命令不用就会忘记，做个记录，工作中用到的！# 启动关闭启动hbase：./bin/start-hbase.sh 停止hbase：./bin/stop-hbase.sh启动shell脚本：./bin/hbase shell命令查看：help查看当前登录用户及用户组：whoami# 创建表创建表：create 'test', { NAME => 'cf', VERSIONS => 3 , COMPRESSION => 'SNAPPY', DATA_BLOCK_ENCODING

2020-06-15 17:07:26 354

Adam_cbp的博客

原创 Maven setting.xml 配置