liuSir的一亩三分地-CSDN博客

原创 Java版本的一些常见Spark算子

这里我列举了几个常见的Java类型的spark算子，主要包括Join、GroupByKey、mapPartition、mapPartitionWithIndex、sortBy算子Join案例:package com.liuze;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

2021-04-22 21:25:41 671

原创 Java版spark入门WordCount

最近新入职了一家公司，这家公司主要以开发大数据平台为主，主流语言用的是java语言，涉及到的组件有很多很多 kafaka、pg数据库、hbase、hudi、atlas、flink、spark、hive、hadoop、mongdb、presto、hbase、dolphinscheduler、alluxio等等，以前很少用java去写spark代码，如此一来感觉十分懵逼，以后准备更新以Java语言方向为主的大数据开发。这里先从基础开发，我这里先整理的是Java，JavaLambda，Scala三种方式的word

2021-04-19 21:08:59 769

原创 Linux中nginx单节点部署

本次是在linux中使用源码编译安装nginx单节点，安装和配置如下1.安装依赖yum -y install gcc pcre-devel zlib-devel openssl openssl-devel2.上传nginx，并且进行解压缩tar -zxvf nginx-1.14.1.tar.gz3.进行nginx编译之前配置和检测工作。cd nginx-1.14.1./configure配置成功如下图：4.预编译、编译与安装make && make install

2020-12-16 18:35:41 431

原创 lombok注解的使用

lombok注解: 主要是减少getter、setter、equals、toString、以及有参和无参构造方法,减少代码的冗余性。使用过程:以idea为例1.安装lombok插件2.引入lombok依赖<dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.16.20&lt

2020-12-15 14:47:06 378

原创记录一次本地虚拟机迁移之后无法联网的解决

记录一次本地虚拟机迁移之后无法联网的解决基于centos6:由于本地虚拟机安装在移动硬盘里面，里面装有很长时间才安装好的hadoop生态系统，在一次迁移过程中，启动虚拟机后无法通过xshell连接，在打开虚拟机后，发现ping www.baidu.com 不成功，输入ifconfig后也没有对应的网卡，猜想肯定是对应的网卡down掉了发现没有对应的网卡，我滴个天呀，迁移个系统还弄出个这个东东问题来，故翻阅资料，找到了解决方式，解决方式如下:修改网络配置，centos6对应的配置可如我所示,很多人

2020-09-24 09:39:39 1469

原创 flume通过flume-ng-sql-source实时采集mysql数据到kafka

flume通过flume-ng-sql-source实时采集mysql数据到kafka1.通过flume-ng-sql-source实时将mysql数据传输到kafka中需要用到插件flume-ng-sql-source2.将下载的jar包放到flume的lib目录注意:不同插件版本与不同的flume版本存在匹配问题(亲测flume-ng-sql-source-1.5.1.jar与flume-1.8.0可以共同使用)3.在${FLUME_HOME}/conf下创建mysql_conf.proper

2020-07-22 10:38:33 976 1

原创使用docker安装Oracle_11g

使用docker安装Oracle_11g1.从阿里开源镜像中拉取镜像Oracle_11gdocker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g查看镜像： docker images2. 创建容器docker run -d -p 11521:1521 --name oracle11g registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g这里说一下，命令后面的地址一

2020-07-17 18:17:12 499

原创使用kafka connect将实时将MySQL数据导入kafka

使用kafka connect将实时将MySQL数据导入kafka1、kafka1.0版本以上(bin目录包含connect，conf目录包含connect)2、下载kafka-connect-jdbc插件https://www.confluent.io/hub/confluentinc/kafka-connect-jdbc解压得到以下目录结构:3.将插件中lib里面的jar文件提取出来，放到kafka的libs目录4、复制Java的MySQL驱动包到kafka的libs目录5、将kaf

2020-07-13 14:07:26 1889

原创 flume实时采集全量或者增量文件或者文件夹数据到kafka

flume实时采集全量或者增量文件或者文件夹数据到kafka这里安装的Flume单节点，Kafka单节点，目标是通过Flume去读取文件中的历史数据导入到kafka中，还有就是将实时更新的数据传输到kafka中。一、Flume安装Flume的安装使用可以说非常简单，直接进官网：http://flume.apache.org/最新是1.9.0版本，我们选择1.8.0版本下载。配置flume的环境变量:略二、kafka安装kafka官网：http://kafka.apache.org/dow

2020-07-11 09:25:16 3998

原创 linux下docker使用大全

linux下docker使用大全Docker 是一个开源的应用容器引擎，基于 Go 语言并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口,更重要的是容器性能开销极低。Docker 包括三个基本概念:镜像（Image）：Docker 镜像（Image），就相当于是一个 root 文件系统。比如官方镜像 ubuntu:16.04

2020-07-09 19:19:24 599

原创基于阿里的Json解析包FastJson解析Json字符串

JAVA解析JsonJson的结构1 []中括号代表的是一个数组；2 {}大括号代表的是一个对象3 双引号“”表示的是属性值4 冒号：代表的是前后之间的关系，冒号前面是属性的名称，后面是属性的值，这个值可以是基本数据类型，也可以是引用数据类型。解析方法://获取属性值 getString//获取数组 getJsonArray//获取对象 getJsonObjectpom添加依赖<dependency> <groupId>com.al

2020-07-06 16:44:02 1187

原创基于图数据库的数据仓库表和字段血缘关系分析

基于图数据库的数据仓库表和字段血缘关系分析项目介绍:通过实时解析hive产生的日志分析hive中的表和字段的数据血缘，并且入neo4j图数据库，字段的血缘关系只需要修改hive的配置文件即可，表的血缘关系需要修改hive的源代码。注意:hive源码包需要在linux中进行编译，本人在windows中编译无一成功。在org.apache.hadoop.hive.ql.hooks.LineageLogger的run方法中加入以下代码try{ org.apache.hadoop.hive.ql.to

2020-06-24 16:03:21 4831 2

qq_44962075的博客