自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 【Kafka】如何从指定时间开始消费Topic

如何从指定时间开始消费Topic使用前提使用实例 使用前提 0.10.1.1版本的kafka增加了时间索引文件,可以根据指定的时间戳计算出的Offset来访问TopicPartition中的消息。 使用实例 public class TimestampOffsetConsumer { ...

2020-04-14 15:20:41 195 0

转载 彻底理解ThreadLocal

ThreadLocal是什么   早在JDK 1.2的版本中就提供java.lang.ThreadLocal,ThreadLocal为解决多线程程序的并发问题提供了一种新的思路。使用这个工具类可以很简洁地编写出优美的多线程程序。   当使用ThreadLocal维护变量时,ThreadLoca...

2020-01-21 18:04:51 36 0

转载 java8 CompletableFuture_异步执行多个任务

前言 CompletableFuture是java8提供的基于异步操作的封装,日常开发中怎能不用上一番呢。 1)聚合多个异步任务 需求:多个tab页包含不同的表格数据,并且带分页,页面首次加载时需要显示第一页数据,并且在tab顶上显示总量,如下图所示: 各个表格数据从es中查询,涉及到计算,...

2020-01-21 18:03:55 221 0

转载 JDK8时间类

1. JDK8之前的时间日期API 1.1 java.lang.System类 public static native long currentTimeMillis(); 用于返回当前时间与1970年1月1日0:0:0之间以毫秒为单位的时间差 时间戳 1.2 java.util.Date类 ...

2020-01-19 10:49:50 79 0

转载 批处理 rewriteBatchedStatements=true

最近在优化大批量数据插入的性能问题。 项目原来使用的大批量数据插入方法是Mybatis的foreach拼接SQL的方法。 我发现不管改成Mybatis Batch提交或者原生JDBC Batch的方法都不起作用,实际上在插入的时候仍然是一条条记录的插,速度远不如原来Mybatis的foreach拼...

2020-01-13 15:04:16 100 0

转载 Java移位运算符详解实例

移位运算符它主要包括:左移位运算符(<<)、右移位运算符(>>>)、带符号的右移位运算符(>>),移位运算符操作的对象就是二进制的位,可以单独用移位运算符来处理int型整数。 运算符 含义 << 左移运算符,将运算符左边的对象...

2019-12-23 15:00:31 17 0

转载 字符编码(ASCII、UNICODE、UTF-8)

转自: 字符串和编码 - 廖雪峰的官方网站 https://www.liaoxuefeng.com/wiki/1016959663602400/1017075323632896 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit...

2019-12-18 09:46:35 27 0

原创 SparkStreaming创建DirectStream连接kafka时策略详解

SparkKafka直接流(createDirectStream)和kafka分区 每个kafka主题分区对应一个RDD分区。 spark可以通过spark.streaming.kafka.maxRatePerPartition 配置,对每个分区每秒接受的消息树进行控制。 LocationStr...

2019-10-29 09:53:59 100 0

原创 Kafka参数详解及调优--生产者

引言 在实际的kafka开发中,我们会发现,无论是生产者还是消费者,都需要构建一个Properties对象,里面设置了很多参数。对于很多初学者来说,会看不懂这些参数分别代表什么含义。 在本篇文章我们就来详细地了解一下这些参数的作用,并探讨下如何使用合理的配置去优化提高生产/消费效率。 正文 1.k...

2019-05-23 14:24:24 752 1

原创 Kafka参数详解及调优--消费者

引言 在实际的kafka开发中,我们会发现,无论是生产者还是消费者,都需要构建一个Properties对象,里面设置了很多参数。对于很多初学者来说,会看不懂这些参数分别代表什么含义。 在本篇文章我们就来详细地了解一下这些参数的作用,并探讨下如何使用合理的配置去优化提高生产/消费效率。 正文 1.k...

2019-05-23 11:58:03 1324 0

原创 阿里开源Canal--⑤投递到Kerberos认证的Kafka

在前一章节中,Billow介绍了如何通过1.1.1以上的canal配置将binlog数据投递到kafka。在实际的生产环境中,我们的kafka很多都会集成Kerberos作为安全认证。那么在本节,Billow将介绍如何通过修改源码使Canal可配置为投递数据到Kerberos认证的Kafka集群。...

2019-02-18 09:55:33 493 4

原创 阿里开源Canal--④投递数据到Kafka

基本说明 canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有: kafka:&nbsp;(https://github.com/apache/kafka) RocketMQ

2019-02-18 09:55:05 2141 0

原创 阿里开源Canal--③Client入门

在上一章节中,我们配置启动了canal server,本节我们使用Java语言编写启动client端消费server端同步过来的binlog数据。 #1.添加依赖 &lt;dependency&gt; &lt;groupId&gt;com.alibaba.o...

2019-02-18 09:54:35 917 0

原创 阿里开源Canal--②快速入门

#1、mysql初始化 a.canal的原理是基于mysql binlog技术,所以这里一定需要开启mysql的binlog写入功能,建议配置binlog模式为row. [mysqld] log-bin=mysql-bin #添加这一行就ok binlog-format=ROW #选择row模式 ...

2019-02-18 09:53:54 280 0

原创 阿里开源Canal--①简介

canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&amp;消费,目前主要支持了MySQL(也支持mariaDB)。 背景 早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于tr...

2019-02-18 09:51:57 255 0

原创 看完这篇文章,你就能熟练运用SparkSql

花了几天休息的时间整理了这篇文章,就为了让你读完就能深入了解并熟练运用Spark SQL!如果你觉得有用的话请收藏加关注,你的转发和点赞是我最大的动力!原创不易,转载请注明出处!   本文基于Spark官方网站(spark.apache.org),加上自己的理解和实验编写。文中Demo基于Sp...

2019-01-21 23:17:32 108 0

原创 Maven打包插件

&lt;build&gt; &lt;plugins&gt; &lt;plugin&gt; &lt;groupId&gt;org.apache.maven.plugins&l...

2019-01-19 11:55:53 739 0

转载 Java创建ClassTag的方法

Java创建ClassTag的方法,我能找到的有三个方法。其中第三种方法,只要需要classtag的地方都可以直接用,参数都不需要。 1:ClassManifestFactory.classType( String.class )。 2:ClassTag$.MODULE$.apply( Str...

2019-01-17 17:00:44 167 0

原创 使用Sqoop导入导出parquet格式的Hive表

1、导入 sqoop import \ --connect jdbc:mysql://10.10.0.1:3306/test \ --username root \ --password 123456 \ --table session_detail \ --hive-import \ --h...

2019-01-16 16:08:33 3523 4

原创 sqoop 导入数据的时候出现Unsupported major.minor version 52.0的问题描述

由于脚本中显示指定了运行sqoop的jdk版本为1.8,CDH集群的jdk为1.7,导致执行sqoop时报错:Unsupported major.minor version 52.0。 出现该问题是由于cloudera manager和系统的jdk版本不一致导致的,更具体点是cm使用的是低版本的...

2019-01-14 16:52:38 502 0

原创 CDH--Spark结合Hive/Hbase/Kudu报错找不到表或找不到相关包的问题解决

问题描述一:Spark结合Hive开发,明明有表,却报错找不到表问题 问题描述二:找不到相关jar包 NoClassDefFoundError

2018-11-09 14:59:38 1004 0

转载 java ssh远程连接服务器,跳过 Kerberos username 身份验证提示

一般情况下,我们登录sftp服务器,用户名认证或者密钥认证即可。  但是如果对方服务器设置了Kerberos 身份验证,而已方又没有对应的配置时,则会提示输入  Kerberos username [xxx]  Kerberos password 此时,简单的解决办法是,可以去掉Kerberos...

2018-11-06 17:11:06 679 0

转载 HBase权限管理命令

我们可以授予和撤销HBase用户的权限。也有出于安全目的,三个命令:grant, revoke 和 user_permission.。 grant grant命令授予特定的权限,如读,写,执行和管理表给定一个特定的用户。 grant命令的语法如下: hbase&gt; grant ...

2018-11-06 10:42:09 1034 0

原创 CDH-Kerberos环境下KafkaManager的安装使用(编译版和免编译版)

为了能够方便的查看及管理Kafka集群,yahoo提供了一个基于Web的管理工具(Kafka-Manager)。这个工具可以方便的查看集群中Kafka的Topic的状态(分区、副本及消息量等),支持管理多个集群、重新分配Partition及创建Topic等功能。 项目地址:https://git...

2018-11-02 15:39:17 507 0

原创 Kafka集成sentry的授权命令

前提知识: 1. 一旦对Kafka启用Sentry授权以后,kafka用户就是管理员,一切管理员操作都需要使用kafka用户来操作,这个与我们在Hive/Impala中使用Sentry时,hive用户是管理员原理是一样的 2. 如果只是测试系统,建议将Sentry权限的cache刷新间隔调低,这...

2018-11-01 17:46:51 888 0

转载 CDH-Kerberos环境下Kafka集成Sentry进行权限管理

1.文档编写目的 Sentry在CDH平台中定位为统一的授权框架,即所有的组件都要受Sentry的管理,当然也是为了方便用户的操作,一个入口为所有数据相关进行授权。Fayson在前面的文章中介绍了大量Sentry与Hive/Impala的集成文章,其实Sentry除了可以给Hive/Impal...

2018-11-01 16:56:22 1248 0

转载 在Linux(CentOS)下重置MySQL根(Root)密码

1.首先输入“service mysqld status”查看当前mysql服务状态,下图显示正在mysqld服务正在运行中。 2.输入“killall -TERM mysqld”命令停止所有的mysqld进程。 3.输入“service mysqld stop”命令停止mysqld服...

2018-11-01 15:07:29 102 0

原创 Hadoop认证Kerberos--UserGroupInformation.doAs

在访问带有kerberos认证的hadoop生态圈服务时,必须带上keytab文件认证。 常用的代码: String userCode="user1"; String keytabPath = "./user1.keytab"; System.setP...

2018-11-01 14:56:04 5139 0

原创 Kafka集成Kerberos之后如何使用生产者消费者命令

前提: 1、kafka版本1.0.12、在linux中使用kinit刷新kerberos认证信息/在配置文件中配置keytab路径和票据 1、生产者 1.1、准备jaas.conf并添加到环境变量(使用以下方式的其中一种) 1.1.1、使用Kinit方式 前提是手动kinit 配置内容...

2018-11-01 11:49:58 2565 0

原创 windows本地没有hadoop环境:Failed to locate the winutils binary in the hadoop binary path

资源下载: https://download.csdn.net/download/weixin_35852328/10746477   异常:本地没有hadoop环境 /10/26 16:16:02 ERROR util.Shell: Failed to locate the winuti...

2018-10-26 16:21:01 162 0

原创 hdfs跨集群拷贝文件命令

hadoop distcp   -D ipc.client.fallback-to-simple-auth-allowed=true  -skipcrccheck  -update  -m 20  webhdfs://ip/user/hive/warehouse/dm.db/fin_market ...

2018-10-26 15:53:31 774 0

原创 CDH报错: 主机的 NTP 服务未同步至任何远程服务器。

当cdh出现报错 主机的 NTP 服务未同步至任何远程服务器。 可以采取以下方式解决   选择ntp时间服务器 : 10.0.61.4 Step1 : 进入linux ntpd 配置目录,并修改配置文件如下: vim /etc/ntp.conf # For ...

2018-10-25 11:24:04 3741 0

转载 使用Impala合并小文件

1.文档编写目的   Fayson在前面的文章《如何在Hadoop中处理小文件》里面介绍了多种处理方式。在Impala表中使用小文件也会降低Impala和HDFS的性能,本篇文章Fayson主要介绍如何使用Impala合并小文件。   内容概述 1.环境准备 2.Impala合并...

2018-10-23 16:00:45 927 0

转载 Cloudera Impala 常见问题(翻译)

Cloudera Impala 常见问题 下面是 Clouder Impala 产品常见问题的目录。 继续阅读: Trying Impala Impala System Requirements Supported and Unsupported Functionality In Imp...

2018-10-19 11:02:31 909 0

转载 Haproxy 开启日志记录

CentOS 7上yum安装的Haproxy,默认没有记录日志。需要做一下配置才能记录日志。(不知道其他版本是否需要,已经忘记了)主要是用到了Haproxy,以前貌似没有这么麻烦,今天配置出了一些问题查日志才发现原来Haproxy需要自己手工开启日志记录功能。因此作为相关记录!   1. 创建...

2018-10-19 10:59:09 287 0

原创 Shell脚本并发池控制

控制个数为10个 dbname=$1 tempfifo=$$.fifo # $$表示当前执行文件的PID mkfifo $tempfifo exec 10&lt;&gt;$tempfifo rm -rf $tempfifo for ((i=1; i&l...

2018-09-20 16:37:54 161 0

原创 Spark算子里面使用JDBC连接Impala的时候报错: ExecuteStatement failed: out of sequence response

Caused by: org.apache.thrift.TApplicationException: ExecuteStatement failed: out of sequence response   到IVE-6893] out of sequence error in HiveMet...

2018-09-20 10:57:31 2694 0

原创 Java List中添加一个对象多次

在实际应用场景中,可以需要在一个List中添加多个对象,在使用的时候有个误区就是将一个对象添加多次到List中,导致数据不一致。 测试代码: public class test { public static void main(String[] args) { ...

2018-09-17 11:51:42 3993 0

原创 Spark/HDFS上传文件错误:Permission denied

问题描述 今天用spark将RDD结果输出到HDFS时,因为CDH集群重新配置的原因,权限没有设置好。导致写文件出bug。 错误情况 org.apache.hadoop.security.AccessControlException: Permission denied: user=x...

2018-09-13 09:51:38 603 0

转载 spark 调用saveAsTextFile 报错NullPointerException

解决方法:1.http://www.cnblogs.com/likai198981/p/4123233.html                     2.http://www.myexception.cn/cloud/1976385.html                     3.h...

2018-09-13 09:41:58 234 0

提示
确定要删除当前文章?
取消 删除