- 博客(200)
- 收藏
- 关注
原创 Java内部类
在Java中,可以将一个类定义在另一个类或者一个方法里面,这样的类称为内部类。广泛意义上的内部类一般来说包括这四种:成员内部类、静态内部类、局部内部类和匿名内部类。成员内部类内部类作为外部类的一个成员变量,访问权限可以是任意的权限。成员内部类中不允许定义静态的成员(静态方法、静态属性),实例化对象时需要借助外部类的对象完成。字节码文件名格式: 外部类$内部类.classpublic class OuterClass { public String name; // 定义成
2020-08-05 09:23:54
211
原创 Linux 环境下安装部署 Weblogic
环境准备配置 java 环境变量export JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar:$CLASSPATH创建 weblogic 用户及用户组[root@node00 ~]# mkdir -p /u01/weblogic[root@node00 ~]# ll[root@node00 ~]#..
2020-07-30 14:45:28
391
原创 使用 Spark 跨集群同步HDFS数据
import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionobject TestFileCopy { def main(args: Array[String]): Unit = { Logger.getLogger("org.a
2020-07-22 13:32:35
1621
原创 Scala中反射的使用
参考: http://software.clapper.org/classutil/测试类:import com.project.dmp.utils.ClassUtilsimport org.clapper.classutil.ClassInfoimport org.clapper.classutil.ScalaCompat.LazyListimport org.junit.Testimport spire.std.mapclass ClassUtilTest { /** * 获
2020-07-17 16:49:23
446
原创 Scala 中如何使用 continue 和 break 跳出循环
示例代码:object Test { def main(args: Array[String]): Unit = { import scala.util.control.Breaks._ println("=============== Continue ===================") for (i <- 1 to 10) { breakable { if (i % 2 == 0) { break
2020-07-13 11:19:37
981
原创 构建并生成日期维度数据表
基于 MySQL 生成日期维度数据创建日期维度数据表DROP TABLE IF EXISTS `date_dim`;CREATE TABLE IF NOT EXISTS `date_dim` ( `date_sk` BIGINT ( 20 ) NOT NULL AUTO_INCREMENT, `date` VARCHAR ( 255 ) DEFAULT NULL, `month` VARCHAR ( 255 ) DEFAULT NULL, `month_name` ..
2020-07-03 15:45:22
875
原创 Flink 在 idea上提交任务到远程服务器
Flink自身提供了远程提交任务的环境,源码如下:请查看StreamExecutionEnvironment 类中 createRemoteEnvironment 方法def createRemoteEnvironment( host: String, port: Int, parallelism: Int, jarFiles: String*): StreamExecutionEnvironment = { val javaEnv = JavaEnv.create
2020-07-03 13:37:28
2166
2
原创 Kudu 表数据迁移
使用 Kudu Command Line Tools 将表数据复制到另一个表这两个表可在同一个集群中,也可在不同集群。但是这两个表必须具有相同的表模式,可以具有不同的分区模式。该工具可以使用与源表相同的表和分区模式创建新表。用法:kudu table copy <master_addresses> <table_name> <dest_master_addresses> [-nocreate_table] [-dst_table=<table>] [-n
2020-07-01 16:21:03
3259
1
原创 在 Kudu 中集成 Hive Metastore
在启用 Kudu-HMS 集成之前,要确保 Kudu 和 HMS 现有表的视图一致。这可能需要重命名Kudu表以符合Hive命名约束。在启用与 Hive Metastore 集成之前应升级现有 Kudu 表。准备升级在升级过程中,Kudu群集仍然可用。Kudu 和 Hive Metastore 中的表可能会更改或重命名。可以使用以下命令记录所有外部表并将其删除。这减少了与 Kudu 表发生命名冲突,导致升级过程中出现错误。升级完成后,重新创建外部表。[root@node01 ~]# sudo -
2020-07-01 16:19:32
2476
3
原创 Flink 本地运行日志配置
方法一: 使用 log4j.properties在 src/main/resources 中添加 log4j.properties 文件################################################################################# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements..
2020-06-29 09:16:24
4811
原创 使用 Imply 安装部署 Druid 集群并测试
下载 imply 安装包[root@node01 opt]# wget https://static.imply.io/release/imply-3.3.3.tar.gz解压安装包并修改配置文件[root@node01 opt]# tar -xzf imply-3.3.3.tar.gz[root@node01 ~]# cd imply-3.3.3[root@node01 imply-3.3.3]# cd conf/druid/_common/[root@node01 imply-3...
2020-06-02 13:20:25
874
原创 Flink 实时将数据写到 Redis
RedisSinkDemo 代码import java.net.InetSocketAddressimport java.utilimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.redis.RedisSinkimport org.apache.flink.streaming.connectors.redis.common.config.FlinkJedisClu..
2020-05-20 13:19:02
2018
原创 Flume 采集 kafka 数据实时写入 Kudu
####### 创建 JsonKuduOperationsProducer.java 用于处理 Json 字符串写入Kuduimport com.alibaba.fastjson.JSON;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.FlumeException;import org.apache.flume.annotations.InterfaceAudience..
2020-05-18 19:10:55
1354
原创 关于 Impala 时区问题及解决办法
查询使用 from_unixtime 时,遇到如图所示情况:解决办法:默认 impala 配置不是中国的时区登录CM,进入Impala服务,进入配置项Cloudera Manager -> Impala -> 配置-> Impala Daemon -> 高级增加如下参数:-use_local_tz_for_unix_timestamp_conversions-convert_legacy_hive_parquet_utc_timestamps保存..
2020-05-16 19:50:02
1728
1
原创 Cloudera Manager中安装部署Flink服务
制作Flink的Parcel包和csd文件将Parcel包和manifest.json文件部署到httpd服务中[root@node01 ~]# mkdir -p /var/www/html/cloudera-repos/flink-parcel/[root@node01 ~]# cd /var/www/html/cloudera-repos/flink-parcel/[root@...
2020-05-07 20:09:41
2130
3
原创 利用 StreamSets 实现将 SQL Server 中数据实时同步写入 Kudu
环境准备SQL Server 中创建测试库表CREATE DATABASE test;CREATE TABLE [dbo].[cdc_test] ( [id] int IDENTITY(1,1) NOT NULL, [name] varchar(60) COLLATE Chinese_PRC_CI_AS NOT NULL, CONSTRAINT [PK_cdc_tes...
2020-04-29 10:03:04
1348
原创 SQL Server 启用或禁用 CDC 功能
title: SQL Server 启用或禁用 CDC 功能comments: truetags:大数据SQL Servercategories:SQL Serverabbrlink:date: 2020-04-28 14:49:49查看库表是否启动 CDC-- 查看数据库是否启用cdcSELECT name,is_cdc_enabled FROM sys.dat...
2020-04-28 14:38:02
4676
1
原创 利用 StreamSets 实现将 MySQL 中数据实时同步写入 Kudu
使用StreamSets实现MySQL中变化数据实时写入Kudu环境准备开启MariaDB的Binlog日志修改/etc/my.conf文件,在配置文件[mysqld]下增加如下配置server-id=999log-bin=mysql-binbinlog_format=ROW注意:MySQL Binlog支持多种数据更新格式包括Row、Statement和mix(Row和...
2020-04-28 13:50:21
2730
3
原创 Apache Flink 基于 CDH-6.3.2 源码编译
修改 maven 的仓库地址[root@node01 cloudera]# cat /usr/share/maven/conf/settings.xml... </mirrors> <mirror> <id>alimaven</id> <name>...
2020-04-24 08:48:01
1366
1
原创 制作Flink的Parcel包和csd文件
配置java,maven等环境变量java:export JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar:$CLASSPATHmaven:export MVN_HOME=/usr/local...
2020-04-17 13:07:58
2682
3
原创 解决 NiFi 节点本地流与集群流不一致导致无法加入集群
异常信息org.apache.nifi.controller.UninheritableFlowException: Failed to connect node to cluster because local flow is different than cluster flow. at org.apache.nifi.controller.StandardFlowService.lo...
2020-01-14 16:51:21
1075
原创 解决 Elasticsearch 分页查询记录超过10000时异常
问题一: 查询结果中 hits.total.value 值最大为10000的限制解决方法:请求时设置 "track_total_hits": trueRest 请求设置方法:curl -X POST "http://192.168.1.101:9200/my_index/_search?pretty" -H 'Content-Type: application/json' -d'...
2020-01-08 10:45:59
3306
原创 Linux 下安装 Oracle 客户端
使用 ZIP文件离线安装 Oracle 客户端下载所需的 Instant Client ZIP文件。[root@cdh01 ~]# mkdir /opt/oracle[root@cdh01 ~]# cd /opt/oracle[root@cdh01 oracle]# ll /opt/oracletotal 82032-rw-r--r-- 1 root root 60704657...
2019-12-30 18:47:48
623
1
原创 NiFi 示例将 MySQL 中数据导出并转换为 JSON 发送到 Kafka
添加 ExecuteSQL 处理器添加 ExecuteSQL 到面板配置 ExecuteSQL配置 DBCPConnectionPool更改 DBCPConnectionPool 配置,直到将 state 从 Invalid 变为 Disable数据库连接池配置信息启用 DBCPConnectionPool任务成功或失败时的处理方式....
2019-12-24 19:18:57
1067
原创 Linux 下离线安装 MariaDB
下载 MariaDB 安装包下载地址: https://downloads.mariadb.org/卸载系统自带的mysql#检查mariadb是否存在[root@cdh01 local]# rpm -qa | grep mariadbmariadb-libs-5.5.60-1.el7_5.x86_64#卸载[root@cdh01 local]# rpm -e --nodep...
2019-12-19 15:02:38
4672
1
原创 NiFi 集群安装部署及使用
NiFi 架构下载 NiFi 安装包并解压下载地址: http://nifi.apache.org/download.html单机部署修改 con/nifi.properties 配置文件(可不修改)# HTTP 主机地址。默认为空。nifi.web.http.host=DSJ-TVM001# HTTP 端口。默认为8080nifi.web.http.port=...
2019-12-13 19:07:48
1487
原创 Structured Streaming 简介
示例代码import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 监听网络端口发...
2019-12-06 10:53:07
457
原创 Elasticsearch 更新字段映射 mapping
Elasticsearch 不支持现有字段映射更新。可以通过正确创建映射一个新的索引,然后将原索引上的数据复制到新的索引上,再将 alias 指向新 indices。然后再删除原索引。将原索引 test 添加 aliascurl -X POST "http://192.168.1.101:9200/_aliases?pretty" -H 'Content-Type: application...
2019-11-26 19:47:44
774
原创 Elasticsearch 安装部署 IK 分词器
下载 elasticsearch-analysis-ik 安装包下载地址: https://github.com/medcl/elasticsearch-analysis-ik/releases安装 IK 分词器自动安装cd /opt/cloudera/parcels/ELASTICSEARCH/bin./elasticsearch-plugin install -y htt...
2019-11-26 13:45:40
270
原创 Spring Boot 整合 Kafka 并使用 @KafkaListener 并发批量接收消息
注册 KafkaListenerContainerFactoryimport org.apache.kafka.clients.CommonClientConfigs;import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.common.config.SaslConfigs;impo...
2019-11-25 17:06:49
3053
1
原创 ElasticSearch 在排序操作时报错: Fielddata is disabled on text fields by default...
异常信息:Fielddata is disabled on text fields by default. Set fielddata=true on [my_field] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use signi...
2019-11-25 09:26:41
617
原创 Hive 在 Join 查询时报错: Bad status for request TFetchResultsReq ...
异常信息:Bad status for request TFetchResultsReq(fetchType=1, operationHandle=TOperationHandle(hasResultSet=True, modifiedRowCount=None, operationType=0, operationId=THandleIdentifier(secret='\xff\xe1\...
2019-11-22 14:24:43
6162
1
原创 Flume 消费或生产消息到 Kafka 遇到的相关问题及解决
背景:在使用的 Flume 消费或生产添加了SASL_SSL认证的 Kafka 时,遇到以下问题。其中 Flume 本身自带 Kafka 依赖是0.9.0版本, Kafka 集群是0.10.0版本。遇到的相关问题问题一:由于 Flume 本身自带 Kafka 依赖是0.9.0版本, Kafka 集群是0.10.0版本,版本的不一致。...19/10/18 13:05:18 ...
2019-10-18 15:19:11
2386
原创 Hive 中自定义函数实现墨卡托和经纬度相互转换
package com.cloudera.udf;import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;import java.text.DecimalFormat;/** * 经纬度...
2019-10-16 14:34:43
408
原创 Spark 使用 Redisson 读写 Redis 集群遇到的相关问题及解决办法
遇到的相关问题问题一:由于Spark2 环境使用的 netty-all-4.0.43.Final.jar 与 redisson 中的 netty-all-4.1.41.Final.jar 冲突,直接将 redisson 的 jar 包打包进项目中运行会报以下异常。Exception in thread "streaming-job-executor-0" java.lang.NoSu...
2019-10-14 14:40:57
2815
原创 SparkStreaming 消费 Kafka 数据保存 Offset 到 Redis
Sparkstreaming程序:package com.cloudera.savekafkaoffsetimport com.cloudera.utils.{JedisPoolUtils, KafkaRedisUtils, RedisConfig}import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apac...
2019-09-30 14:58:59
650
1
原创 Spark 读取 Hive 数据及相关问题解决
D:\development\java\jdk1.8.0_111\bin\java.exe -agentlib:jdwp=transport=dt_socket,address=127.0.0.1:59779,suspend=y,server=n -javaagent:D:\development\ideaIU-2018.3.5.win\lib\rt\debugger-agent.jar -Dfi...
2019-09-29 10:54:30
1975
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人