自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Java版本的一些常见Spark算子

这里我列举了几个常见的Java类型的spark算子,主要包括Join、GroupByKey、mapPartition、mapPartitionWithIndex、sortBy算子Join案例:package com.liuze;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

2021-04-22 21:25:41 533

原创 Java版spark入门WordCount

最近新入职了一家公司,这家公司主要以开发大数据平台为主,主流语言用的是java语言,涉及到的组件有很多很多 kafaka、pg数据库、hbase、hudi、atlas、flink、spark、hive、hadoop、mongdb、presto、hbase、dolphinscheduler、alluxio等等,以前很少用java去写spark代码,如此一来感觉十分懵逼,以后准备更新以Java语言方向为主的大数据开发。这里先从基础开发,我这里先整理的是Java,JavaLambda,Scala三种方式的word

2021-04-19 21:08:59 534

原创 Linux中nginx单节点部署

本次是在linux中使用源码编译安装nginx单节点,安装和配置如下1.安装依赖yum -y install gcc pcre-devel zlib-devel openssl openssl-devel2.上传nginx,并且进行解压缩tar -zxvf nginx-1.14.1.tar.gz3.进行nginx编译之前配置和检测工作。cd nginx-1.14.1./configure配置成功如下图:4.预编译、编译与安装make && make install

2020-12-16 18:35:41 271

原创 lombok注解的使用

lombok注解: 主要是减少getter、setter、equals、toString、以及有参和无参构造方法,减少代码的冗余性。使用过程:以idea为例1.安装lombok插件2.引入lombok依赖<dependency> <groupId>org.projectlombok</groupId> <artifactId>lombok</artifactId> <version>1.16.20&lt

2020-12-15 14:47:06 276

原创 记录一次本地虚拟机迁移之后无法联网的解决

记录一次本地虚拟机迁移之后无法联网的解决基于centos6:由于本地虚拟机安装在移动硬盘里面,里面装有很长时间才安装好的hadoop生态系统,在一次迁移过程中,启动虚拟机后无法通过xshell连接,在打开虚拟机后,发现ping www.baidu.com 不成功,输入ifconfig后也没有对应的网卡,猜想肯定是对应的网卡down掉了发现没有对应的网卡,我滴个天呀,迁移个系统还弄出个这个东东问题来,故翻阅资料,找到了解决方式,解决方式如下:修改网络配置,centos6对应的配置可如我所示,很多人

2020-09-24 09:39:39 1212

原创 flume通过flume-ng-sql-source实时采集mysql数据到kafka

flume通过flume-ng-sql-source实时采集mysql数据到kafka1.通过flume-ng-sql-source实时将mysql数据传输到kafka中需要用到插件flume-ng-sql-source2.将下载的jar包放到flume的lib目录注意:不同插件版本与不同的flume版本存在匹配问题(亲测flume-ng-sql-source-1.5.1.jar与flume-1.8.0可以共同使用)3.在${FLUME_HOME}/conf下创建mysql_conf.proper

2020-07-22 10:38:33 745 1

原创 使用docker安装Oracle_11g

使用docker安装Oracle_11g1.从阿里开源镜像中拉取镜像Oracle_11gdocker pull registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g查看镜像: docker images2. 创建容器docker run -d -p 11521:1521 --name oracle11g registry.cn-hangzhou.aliyuncs.com/helowin/oracle_11g这里说一下,命令后面的地址一

2020-07-17 18:17:12 385

原创 使用kafka connect将实时将MySQL数据导入kafka

使用kafka connect将实时将MySQL数据导入kafka1、kafka1.0版本以上(bin目录包含connect,conf目录包含connect)2、下载kafka-connect-jdbc插件https://www.confluent.io/hub/confluentinc/kafka-connect-jdbc解压得到以下目录结构:3.将插件中lib里面的jar文件提取出来,放到kafka的libs目录4、复制Java的MySQL驱动包到kafka的libs目录5、将kaf

2020-07-13 14:07:26 1357

原创 flume实时采集全量或者增量文件或者文件夹数据到kafka

flume实时采集全量或者增量文件或者文件夹数据到kafka这里安装的Flume单节点,Kafka单节点,目标是通过Flume去读取文件中的历史数据导入到kafka中,还有就是将实时更新的数据传输到kafka中。一、Flume安装Flume的安装使用可以说非常简单,直接进官网:http://flume.apache.org/最新是1.9.0版本,我们选择1.8.0版本下载。配置flume的环境变量:略二、kafka安装kafka官网:http://kafka.apache.org/dow

2020-07-11 09:25:16 3129

原创 linux下docker使用大全

linux下docker使用大全Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口,更重要的是容器性能开销极低。Docker 包括三个基本概念:镜像(Image):Docker 镜像(Image),就相当于是一个 root 文件系统。比如官方镜像 ubuntu:16.04

2020-07-09 19:19:24 480

原创 基于阿里的Json解析包FastJson解析Json字符串

JAVA解析JsonJson的结构1 []中括号代表的是一个数组;2 {}大括号代表的是一个对象3 双引号“”表示的是属性值4 冒号:代表的是前后之间的关系,冒号前面是属性的名称,后面是属性的值,这个值可以是基本数据类型,也可以是引用数据类型。解析方法://获取属性值 getString//获取数组 getJsonArray//获取对象 getJsonObjectpom添加依赖<dependency> <groupId>com.al

2020-07-06 16:44:02 830

原创 基于图数据库的数据仓库表和字段血缘关系分析

基于图数据库的数据仓库表和字段血缘关系分析项目介绍:通过实时解析hive产生的日志分析hive中的表和字段的数据血缘,并且入neo4j图数据库,字段的血缘关系只需要修改hive的配置文件即可,表的血缘关系需要修改hive的源代码。注意:hive源码包需要在linux中进行编译,本人在windows中编译无一成功。在org.apache.hadoop.hive.ql.hooks.LineageLogger的run方法中加入以下代码try{ org.apache.hadoop.hive.ql.to

2020-06-24 16:03:21 4408 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除