自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

L, there!

只有当后悔取代了梦想,那才是真的老了。

  • 博客(230)
  • 资源 (4)
  • 收藏
  • 关注

原创 Apache大数据相关组件部署

组件总览 Zookeeper部署 创建目录 解压 环境变量 配置服务器编号 配置 同步 启动 Hadoop部署 解压 环境变量 创建目录 集群配置 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml workers 启动 初始化zkfc 启动集..

2022-05-26 01:00:01 2458 1

原创 大数据平台基础环境准备

之前已经记录过,这里再记录一下,相以便快速使用。安装依赖sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git配置用户和权限添加新用户 hdfs,并赋予 root 权限。如果使用 hdfs 用户作为 Hadoop 默认用户,需要将 hdfs 用户也配置免密登录。adduser hdfspasswd hd.

2022-05-26 00:45:15 744

原创 Mac M1 VM Centos7 大数据数据湖测试

Mac M1 通过VMan安装Centos7.9,并搭建 Hadoop/Hive/Kafka/Flink/Iceberg 本地进行数据湖测试。问题:Paralles Desktop 没找到免费的,所以用了VM,VM也可以网上找。Centos7.9官方版本在VM中不成功,所以使用了别人编译的版本:在m1芯片的MacBook上安装centos7JDK使用 yum 安装 arm64架构的1.8.322版本。MySQL使用官网下载arm64版本。大数据相关组件使用官网二进制包。集.

2022-05-26 00:26:44 895

原创 Spark3 读写 S3 Parquet, Hive, Hudi

Spark 读 S3 Parquet 写入 Hudi 表目录Spark 读 S3 Parquet 写入 Hudi 表参考关于S3,S3N和S3A的区别与联系Spark 读写 S3 Parquet 文件测试代码pom.xml配置文件EMR Spark任务提交spark-shellspark-submitSpark 读写 Hudi本地测试代码集群上测试spark-shellspark-sqlSpark-submitHive 中测

2022-05-17 11:56:09 4861 1

原创 近期关注的大数据开源项目

截止至 2022-02-08计算引擎Service Git Star Contributors Release License Apache Flink 18.1k 1005 v1.14.3 Apache-2.0 Apache Flink:https://github.com/apache/flink数据开发Service Git Star Contributors Release License .

2022-02-08 11:40:33 2686

原创 Flink Hudi 测试

组件版本 组件 版本 Java 1.8.251 Scala 1.12.14 Flink 1.12.2 hudi 0.9.0 Hadoop 2.9.2 Hive 2.3.6 将hdfs-site.xml,core

2021-09-30 14:33:16 1418 4

原创 Flink Iceberg 测试

本地搭建单节点Hadoop,根据官网示例进行Iceberg功能测试。组件版本 组件 版本 Java 1.8.251 Scala 1.12.14 Flink 1.12.5 Iceberg 0.12.0 Hadoop 2.9.2 Hive .

2021-09-27 12:52:30 968 1

原创 Flink 自定义UDTF

Flink自定义函数实现列传行,数据格式为Json数据:[{"key1":"value1","key2":"value2"...}]Java@FunctionHint(output = @DataTypeHint("ROW<drugUniversalName string, specifications string, goodsUnit string, " + "location string, instruction string, consumption strin.

2021-08-11 11:16:28 1826

原创 Flink run application 提交 job

1. 上传 flink 相关 plugins 到hdfs2. 上传 flink 相关 依赖到 hdfs3. 上传用户 jar 到 hdfs4. 提交任务flink run-application -t yarn-application \-c com.sm.analysis.rdw.SdkDataEtlOdsToDwd \-Djobmanager.memory.process.size=1600m \-Dtaskmanager.memory.process.size=2048

2021-02-20 17:54:59 2318 1

原创 Scala md5/sha256加密工具类

import java.security.MessageDigest/** * md5, sha256加密 * * create by LiuJinHe 2020/3/27 */object EncodeUtils { def MD5Encode(input: String): String = { // 指定MD5加密算法 val md5 = MessageDigest.getInstance("MD5") // 对输入数据进行加密,过程是先将字符串中.

2021-02-04 23:33:15 939

原创 Scala Druid连接池工具类

package com.sm.utilsimport java.sql.{Connection, PreparedStatement, SQLException, Statement}import java.util.Propertiesimport com.alibaba.druid.pool.DruidDataSourceFactoryimport com.sm.common.conf.ConfigManagerimport com.sm.constants.Constantsimpo.

2021-02-04 23:28:14 974 1

原创 Scala HBaseUtils

package com.sm.utilsimport java.util.Propertiesimport java.util.concurrent.{ExecutorService, Executors}import com.sm.common.conf.ConfigManagerimport com.sm.constants.Constantsimport org.apache.flink.hbase.shaded.org.apache.hadoop.hbase.{HBaseConfig.

2021-02-04 23:22:36 381

原创 Scala GuavaUtils

package com.sm.utilsimport java.util.concurrent.TimeUnitimport com.sm.utils.cache.CacheServiceimport org.apache.flink.shaded.guava18.com.google.common.cache.{Cache, CacheBuilder, CacheLoader}import org.apache.flink.shaded.guava18.com.google.common.u.

2021-02-04 23:19:23 439

原创 Scala json4s Json解析工具类

package com.sm.utilsimport java.utilimport com.sm.common.utils.DateUtilimport org.apache.commons.lang3.StringUtilsimport org.json4s._import org.json4s.jackson.JsonMethods._import org.json4s.jackson.Serializationimport org.json4s.jackson.Serializa.

2021-02-04 23:02:10 723

原创 FlinkSQL 数据去重,读写HBase,Kafka

需求:日活明细分析,需要保存日活明细数据。通过对登录数据去重得到日活,但是因为乱序数据,客户端时间可能会存在变化。1. Flink窗口排序去重,写入HBase。import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.res..

2020-10-22 17:54:05 1891 1

原创 FlinkSQL Kafka to Hive

import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}import org.apache.flink.streaming.api.environme.

2020-10-22 16:36:32 2251 6

原创 FlinkSQL MySQL CDC

package com.sm.jobimport com.sm.function.udf.{ParseDeviceCode, ParsePopularize}import com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j...

2020-10-22 16:20:53 2997

原创 FlinkSQL 读写 MySQL

package com.sm.jobimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j.Levelimport org.slf4j.LoggerFactory/** * flinkSQL 读写 mysql.

2020-10-22 15:41:32 7641 2

原创 FlinkSQL MySQL维表关联

需求:消费Kafka数据,进行数据清洗及维表关联补齐字段,最后结果写入Kafka。import java.time.Durationimport com.sm.function.udf._import com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.restartstrategy..

2020-10-22 15:25:33 2331 1

原创 FlinkSQL Kafka to Kafka

FlinkSql 1.11 读写 Kafka 简单测试。FlinkSql 读 Kafkaimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.EnvironmentSettingsimport org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.flink.types.Row.

2020-08-12 23:39:34 1063

原创 CDH6.2 安装 Pheonix

官方文档:phoenix_installationParcel 下载地址:https://archive.cloudera.com/phoenix/6.2.0/parcels/csd 下载地址:https://archive.cloudera.com/phoenix/6.2.0/csd/PHOENIX-1.0.jar1. Parcel 配置在线方式CDH - Parcel - 配置 - 远程 Parcel 存储库 URL - "+"https://archive..

2020-08-10 12:33:06 585

原创 Scala DateTime工具类

SimpleDateFormat 线程不安全,使用 joda-time 实现的DateTime工具类import java.util.Dateimport org.joda.time.{DateTime, Instant}import org.joda.time.format.{DateTimeFormat, DateTimeFormatter}/** * 日期时间工具类 * * Joda实现 */object DateUtil { val DATE_FORMAT:.

2020-07-12 23:44:41 1787

原创 Centos7.4 RPM 安装 MySQL8.0.17

只是安装用于测试,没有进行MySQL相关配置。1. 卸载原装SQLrpm -qa | grep mariadb # mariadb-libs-5.5.52-1.el7.x86_64 rpm -e --nodeps mariadb-libs-5.5.52-1.el7.x86_64 rpm -qa | grep mysql2. 安装顺序 :common - libs - client - servermysql-community-common-8.0.15-1.el7..

2020-07-10 22:43:27 690

原创 Flink 侧输出流拆分流应用

业务场景:使用Flink同步Kafka数据近实时写入MySQL,需要将登录数据拆分为登录,日活,新增分别入三个MySQL表。采用侧输出流将流拆分为多个流,分别进行处理。/** * Flink 读取 Kafka,每秒聚合一次数据,批量写入 MySQL * * create by LiuJinHe 2020/5/26 */object CpDataKafkaToMySQL { private val logger = LoggerFactory.getLogger(thi...

2020-05-27 14:51:53 1243

原创 CDH6.2 添加新节点

集群有三个节点,需要新添加两个节点集群: 10.0.0.22 cdh-master 10.0.0.23 cdh-slave01 10.0.0.24 cdh-slave02 添加节点: 10.0.0.26 cdh-slave03 10.0.0.27 cdh-slave04基础配置服务器配置按以前配置:Centos7.3安装CDH6.0.1之基础环境配置1. 配置新节点hosts和映射hostnamectl set-hostname cdh-slave03 # 各服务器都添加新节..

2020-05-20 16:46:44 3236

原创 Centos7 查看IP,没有 ifconfig 命令问题

查看IPip addrifconfig没有 ifconfig 解决办法yum search ifconfig #======================== Matched: ifconfig ======================== #net-tools.x86_64 : Basic networking tools yum install -y net-tools.x86_64

2020-05-18 13:26:51 1968

原创 Spark insertOrUpdate MySQL数据

需求:使用 Spark 将 Hive 数据同步到 MySQL,MySQL表以其中三个字段作为唯一索引,索引不冲突的数据直接写入,冲突的数据对其中几个字段进行更新。主类import java.util.Propertiesimport com.sm.conf.ConfigManagerimport com.sm.constants.Constantsimport com.sm....

2020-04-02 14:15:03 731 2

原创 Flink 消费 Kafka 数据批量写入 MySQL 多个表

业务场景:sdk 数据统一入Kafka 的一个 topic(topic_sdk_log),其中包含多种事件类型数据,如:登录,注册,激活等,需要将 Kafka 中数据根据事件类型分别写入 MySQL 多个表。这里使用 Flink 每5秒写入 MySQL 不同表。数据示例:{"key":"login","data":{"_game_version":"","_package...

2020-04-01 10:20:40 4100

原创 MySQL JDBC 写入数据报错 Duplicate entry

JDBC批量数据插入时,报错 Duplicate entry:Duplicate entry '2020-03-23 15:36:01-14340200-ysdk_oU7Gj1VmYZsiImIiGCQIezAOtD5M' for key 'UK_G_U_E'原因:MySQL表建了唯一索引,用于过滤重复数据。UNIQUE KEY `UK_G_U_E` (`TIME`,`...

2020-03-31 12:07:56 1420

原创 Flume 单节点安装连接 kafka

阿里镜像:flume1. 解压安装cd /opt/apps/tar -zxvf apache-flume-1.9.0-bin.tar.gzmv apache-flume-1.9.0-bin flume-1.9.02. 添加环境变量echo 'export FLUME_HOME=/opt/apps/flume-1.9.0' >> /etc/profile \...

2020-03-13 12:10:08 421

原创 Redis 布隆过滤器存储查询千万级用户数据

实时业务需要计算新增用户,从 Hive 加载用户表到内存存储,但是几千万数据放到内存占用资源,查询效率也低。使用 Redis 位图进行存储,可以有效减少内存占用,提高查询效率。这里使用Spark 查询,Redis 位图存储。这里 Scala + Spark local模式 +Redis 单节点测试。测试了几种 Hash 算法,单一 Hash 算法效果或者效率都不是很满意,在万级到...

2020-03-12 15:27:06 2277

原创 Linux Cannot assign requested address

ConnectException: Cannot assign requested address (connect failed)原因在存在大量短连接的情况下,虽然 socket 正常关闭,但默认60s后释放,而不是立即释放,所以处于TIME_WAIT状态。Linux 连接端口(65535)用尽,就会造成这个异常。查看查看进程,有很多 TIME_WAIT 状态的。net...

2020-03-05 22:13:17 2756

原创 Redis info memory信息说明

127.0.0.1:6379> info memory# Memoryused_memory:87795176 # Redis分配的内存总量(byte),包含redis进程内部的开销和数据占用的内存used_memory_human:83.73M # Redis分配的内存总量(mb)used_memory_rss:2223185...

2020-03-05 12:17:06 4420

原创 Redis 及RedisBloom 安装

下载地址:Redis、 RedisBloomRediswget http://download.redis.io/releases/redis-5.0.7.tar.gztar -zxvf redis-5.0.7.tar.gz -C /opt/apps/cd /opt/apps/redis-5.0.7make查看是否生成启动ls /usr/local...

2020-03-04 16:19:32 2631 1

原创 Spark 远程读写 Hive (HDFS) 失败

[WARN] - I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information ...[WARN] - Connection failure: Failed to connect to /10.0.0.24...

2020-03-02 14:53:58 2812

原创 Iptables 常用设置命令

1、iptables规则基本格式iptbales[-t table]COMMANDchainCRETIRIA-jACTION# -t table: 3个 filter nat mangle# COMMAND: 定义如何对规则进行管理# chain: 指定你接下来的规则到底是在哪个链上操作的,当定义策略的时候,是可以省略的# CRETIRIA:...

2020-02-27 12:43:17 1089

原创 CDH 集群修改IP

1. 停止CDH集群及 CM 服务# 主节点systemctl stop cloudera-scm-serversystemctl stop cloudera-scm-agent# 从节点systemctl stop cloudera-scm-agent2. 修改元数据数据库 scm 下HOSTS 表中,主机名对应的ipselect host_id, nam...

2020-02-24 17:32:20 1018

原创 Scala String 与 InputStream 互转

1. String 转 InputStreamval is = new ByteArrayInputStream(str.getBytes())// 转 BufferedInputStreamval bis = new BufferedInputStream(is)// 打印Stream.continually(bis.read()).takeWhile(_ != -1).for...

2020-01-19 19:54:12 1316

原创 Redis 主从复制

Redis主从复制,就是主节点数据更新后根据配置和策略,自动同步到从节点的 Master/Slaver 机制,Master以写为主,Slave以读为主。1. 主从复制模式1. 作用1.数据冗余,实现了数据的热备份。2. 负载均衡,读写分离,性能扩展。3. 容灾快速恢复。4. 主从复制是Rdis哨兵和集群模式的基础。2. 配置配从不配主原则。主从复制完全是在...

2020-01-17 15:57:57 313

原创 Redis 持久化

1. Redis 的 两种持久化方式RDB (Redis DataBase)在指定的时间间隔内将内存中的数据集快照写入磁盘,也就是Snapshot快照,它恢复时是将快照文件直接读到内存里。Redis会单独创建(fork)一个子进程来进行持久化,会先将数据写入到一个临时文件中,待持久化过程都结束了,再用这个临时文件替换上次持久化好的文件。整个过程中,主进程是不进行任何IO操作的,这就确保...

2020-01-17 10:17:33 340

flink-1.14.4-scala_2.12 + CDH6.2.1 版 parcel 包

flink-1.14.4-scala_2.12 + CDH6.2.1 版 parcel 包, 包含 FLINK-1.14.4-BIN-SCALA_2.12-el7.parcel FLINK-1.14.4-BIN-SCALA_2.12-el7.parcel.sha manifest.json (以上三个文件放入 /opt/cloudera/parcel-repo/ 下) FLINK_ON_YARN-1.14.4.jar FLINK-1.14.4.jar (以上三个文件放入 /opt/cloudera/csd/ 下) 另外需要将以下两个包放入 /opt/cloudera/parcels/FLINK/lib/flink/lib 下 commons-cli-1.5.0.jar flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar

2022-03-30

httpd-2.4.39.tar.gz

httpd-2.4.39.tar.gz,Apache安装包httpd-2.4.39.tar.gz

2019-06-27

scala-2.11.12.tgz

scala-2.11.12.tgz,spark开发常用的编程语言,分享快乐~~

2019-06-27

Spark介绍及应用分享讲座ppt

Spark介绍、为什么选择使用Spark、应用场景、及常用操作动态演示。 特意为公司Spark分享培训整理的ppt。 分享使人愉快,@_^~

2019-06-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除