目录哥-CSDN博客

原创 ogg的update获取全列和参数

ogg拉取数据到kakfa的过程中update获取的列只有被修改的列，如果要获取全部列，加上参数fetchcols(*)就可以ogg getupdatebefores参数影响的是获取的before或者afterOGG其它常用参数建议MGR参数序号配置参数备注 1 PORT 7839 必选参数 2 USERID ggs, P...

2020-07-20 17:06:01 2875 1

MySQL的binlog 日志对于生产环境非常有用，任何时间对数据库的修改都会记录在binglog中；当数据发生增删改，创建数据库对象都会记录到binlog中，数据库的复制也是基于binlog进行同步数据；和SQL SERVER 数据库开启完整模式的原理一样，每一次的数据的变动都会记录在案；（对数据库的select,show这些操作不会记录在binlog）下面介绍mysqlbinlog工具查看二进制日志内容；检查工作：1，查看是否开启binlogshow variables like

2020-06-23 11:14:19 1336 1

原创 mysql开启binlog步骤讲解

binlog是二进制日志文件，用于记录mysql的数据变更，数据在恢复的时候binlog日志能起到很大的作用。mysql的主从复制就是利用的binlog原理1、登录mysql之后使用下面的命令查看是否开启binlogshow variables like 'log_%';2、编辑配置文件vi /etc/my.cnf3、加入以下内容 1 2 3 4 5 6 7 server_id=2 .

2020-06-22 17:14:15 896

原创 Java Scala 混合编程导致编译失败，【找不到符号】问题解决

大致就是工程里分了 java 代码和 scala 代码。然后在java代码中引用了 scala 的代码。运行不报错。但是打包就是一直报错。[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.1:compile (default-compile) on project s...

2019-12-07 16:17:19 576

原创 java集合和scala集合的相互转换

对于java中的集合元素并不能在scala中拿来就用的，需要进行相应的转换。1. 转换规则如下从下面可以看出，有些可以相互转换的，有些只能单向转换：scala.collection.Iterable <=> java.lang.Iterablescala.collection.Iterable <=> java.util.Collectionscala...

2019-07-31 16:13:31 473

原创 java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.

遇到这种问题首先考虑是不是jar包冲突也就是依赖中存在多个版本的netty导致程序出现NoSuchMethodError异常。接下来使用命令mvn dependency:tree >> log/dependency.log用于分析现在程序中已有的jar包依赖，通过搜索日志文件中发现：org.apache.hbase:hbase-client:jar:1.4.1:compi...

2019-07-13 19:02:05 3747

原创 Spark接入kafka的jar问题

首先spark的实时处理分为 sparkStreaming和structured streaming 俩中处理方式sparkStreaming 需要引入<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8...

2019-07-12 10:53:28 1050

原创 SparkSql的几种join

1.小表对大表（broadcast join）　　将小表的数据分发到每个节点上，供大表使用。executor存储小表的全部数据，一定程度上牺牲了空间，换取shuffle操作大量的耗时，这在SparkSQL中称作Broadcast Join　　Broadcast Join的条件有以下几个：　　 *被广播的表需要小于 spark.sql.autoBroadc...

2019-01-02 17:12:04 140

原创 Spark程序引用别的jar

第一种方式操作：将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景：第三方jar文件比较小，应用的地方比较少第二种方式操作：使用spark-submit提交命令的参数: --jars要求：1、使用spark-submit命令的机器上存在对应的jar文件2、至于集群中其他机器上的服务需要该jar文件的时候，通过driver提供的一个http接口来获取...

2019-01-02 17:11:01 361

原创 SparkSql常见内置函数

字符串：1.concat对于字符串进行拼接concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ..., strN.Examples:> SELECT concat('Spark', 'SQL');　　SparkSQL2.concat_ws在拼接的字符串中间添加某种格式concat...

2019-01-02 17:09:37 1970

原创 Linux下查看磁盘与目录的容量——df、du

df：列出文件系统的整体磁盘使用量；du：评估文件系统的磁盘使用量（常用于评估目录所占容量）df参数：-a：列出所有的文件系统，包括系统特有的/proc等文件系统-k：以KB的容量显示各文件系统-m：以MB的容量显示各文件系统-h：以人们较易阅读的GB,MB,KB等格式自行显示-H：以M=1000K替代M=1024K的进位方式-T：连同该分区的文件系统名称（例如ex...

2018-12-21 19:06:47 142

原创 SparkSql ----DataFrame

Spark SQL是spark用来处理结构化数据的Spark中所有功能的入口点都是SparkSession类。要创建基本的SparkSession，只需使用SparkSession.builder()：import org.apache.spark.sql.SparkSessionval spark = SparkSession 。builder （）。appNa...

2018-11-19 10:38:44 155

原创 Hbase设置TTL

TTL缩写Time To Live，即生存期。TTL设置了一个基于时间戳的临界值，内部的管理会自动检查TTL值是否达到上限，在major合并过程中时间戳被判定为超过TTL的数据会被自动删除。TTL参数的单位是秒，默认值是Integer.MAX_VALUE，即2^31-1=2 147 483 647 秒，大约68年。使用TTL默认值的数据可以理解为永久保存。 desc "tt1" 查...

2018-11-16 14:39:46 1592 2

原创 idea用spark本地操作hdfs集群

在windows开发机上使用spark的local模式读取远程hadoop集群中的hdfs上的数据，这样的目的是方便快速调试，而不用每写一行代码或者一个方法，一个类文件都需要打包成jar上传到linux上，再扔到正式的集群上进行测试，像功能性验证直接使用local模式来快速调测是非常方便的，当然功能测试之后，我们还需要打包成jar仍到集群上进行其他的验证比如jar包的依赖问题，这个在local模式...

2018-11-14 15:12:15 3942

原创 Linux 环境变量配置

1.系统环境变量配置执行 vim /etc/profile 保存后执行source /etc/profile立即生效 2.用户环境变量配置查看当前有哪些环境变量直接输入命令：env 设置用户环境变量输入命令：vim ~/.bash_profile 输入命令使之生效：source ~/.bash_prof...

2018-11-03 11:13:49 96

doujiayun3939的博客