自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 ogg的update获取全列和参数

ogg拉取数据到kakfa的过程中update获取的列只有被修改的列,如果要获取全部列,加上参数fetchcols(*)就可以ogg getupdatebefores参数影响的是获取的before或者afterOGG其它常用参数建议MGR参数 序号 配置参数 备注 1 PORT 7839 必选参数 2 USERID ggs, P...

2020-07-20 17:06:01 2875 1

原创 binlog解析

MySQL的binlog 日志对于生产环境非常有用,任何时间对数据库的修改都会记录在binglog中;当数据发生增删改,创建数据库对象都会记录到binlog中,数据库的复制也是基于binlog进行同步数据;和SQL SERVER 数据库开启完整模式的原理一样,每一次的数据的变动都会记录在案;(对数据库的select,show这些操作不会记录在binlog)下面介绍mysqlbinlog工具查看 二进制日志内容;检查工作:1,查看是否开启binlogshow variables like

2020-06-23 11:14:19 1336 1

原创 mysql开启binlog步骤讲解

binlog是二进制日志文件,用于记录mysql的数据变更,数据在恢复的时候binlog日志能起到很大的作用。mysql的主从复制就是利用的binlog原理1、登录mysql之后使用下面的命令查看是否开启binlogshow variables like 'log_%';2、编辑配置文件vi /etc/my.cnf3、加入以下内容 1 2 3 4 5 6 7 server_id=2 .

2020-06-22 17:14:15 896

原创 Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决

大致就是 工程里分了 java 代码 和 scala 代码。然后在java代码中 引用了 scala 的代码。运行不报错。但是打包就是一直报错。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project s...

2019-12-07 16:17:19 576

原创 java集合和scala集合的相互转换

对于java中的集合元素并不能在scala中拿来就用的,需要进行相应的转换。1. 转换规则如下从下面可以看出,有些可以相互转换的,有些只能单向转换:scala.collection.Iterable <=> java.lang.Iterablescala.collection.Iterable <=> java.util.Collectionscala...

2019-07-31 16:13:31 473

原创 java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.

遇到这种问题首先考虑是不是jar包冲突 也就是依赖中存在多个版本的netty导致程序出现NoSuchMethodError异常。接下来使用命令mvn dependency:tree >> log/dependency.log用于分析现在程序中已有的jar包依赖,通过搜索日志文件中发现:org.apache.hbase:hbase-client:jar:1.4.1:compi...

2019-07-13 19:02:05 3747

原创 Spark接入kafka的jar问题

首先spark的实时处理分为 sparkStreaming和structured streaming 俩中处理方式sparkStreaming 需要引入<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8...

2019-07-12 10:53:28 1050

原创 SparkSql的几种join

1.小表对大表(broadcast join)  将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join  Broadcast Join的条件有以下几个:                   *被广播的表需要小于 spark.sql.autoBroadc...

2019-01-02 17:12:04 140

原创 Spark程序引用别的jar

第一种方式操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景:第三方jar文件比较小,应用的地方比较少第二种方式操作:使用spark-submit提交命令的参数: --jars要求:1、使用spark-submit命令的机器上存在对应的jar文件2、至于集群中其他机器上的服务需要该jar文件的时候,通过driver提供的一个http接口来获取...

2019-01-02 17:11:01 361

原创 SparkSql常见内置函数

字符串:1.concat对于字符串进行拼接concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ..., strN.Examples:&gt; SELECT concat('Spark', 'SQL');  SparkSQL2.concat_ws在拼接的字符串中间添加某种格式concat...

2019-01-02 17:09:37 1970

原创 Linux下查看磁盘与目录的容量——df、du

df:列出文件系统的整体磁盘使用量;du:评估文件系统的磁盘使用量(常用于评估目录所占容量)df参数:-a:列出所有的文件系统,包括系统特有的/proc等文件系统-k:以KB的容量显示各文件系统-m:以MB的容量显示各文件系统-h:以人们较易阅读的GB,MB,KB等格式自行显示-H:以M=1000K替代M=1024K的进位方式-T:连同该分区的文件系统名称(例如ex...

2018-12-21 19:06:47 142

原创 SparkSql ----DataFrame

Spark SQL是spark用来处理结构化数据的Spark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession,只需使用SparkSession.builder():import org.apache.spark.sql.SparkSessionval spark = SparkSession 。builder () 。appNa...

2018-11-19 10:38:44 155

原创 Hbase设置TTL

TTL缩写Time To Live,即生存期。TTL设置了一个基于时间戳的临界值, 内部的管理会自动检查TTL值是否达到上限,在major合并过程中时间戳被判定为超过TTL的数据会被自动删除。TTL参数的单位是秒,默认值是Integer.MAX_VALUE,即2^31-1=2 147 483 647 秒,大约68年。使用TTL默认值的数据可以理解为永久保存。 desc "tt1"   查...

2018-11-16 14:39:46 1592 2

原创 idea用spark本地操作hdfs集群

在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据,这样的目的是方便快速调试,而不用每写一行代码或者一个方法,一个类文件都需要打包成jar上传到linux上,再扔到正式的集群上进行测试,像功能性验证直接使用local模式来快速调测是非常方便的,当然功能测试之后,我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题,这个在local模式...

2018-11-14 15:12:15 3942

原创 Linux 环境变量配置

1.系统环境变量配置      执行 vim /etc/profile      保存后执行source /etc/profile立即生效 2.用户环境变量配置  查看当前有哪些环境变量        直接输入命令:env  设置用户环境变量    输入命令:vim ~/.bash_profile   输入命令使之生效:source ~/.bash_prof...

2018-11-03 11:13:49 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除