訾零-CSDN博客

原创 Apache大数据相关组件部署

组件总览 Zookeeper部署创建目录解压环境变量配置服务器编号配置同步启动 Hadoop部署解压环境变量创建目录集群配置 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml workers 启动初始化zkfc 启动集..

2022-05-26 01:00:01 2761

之前已经记录过，这里再记录一下，相以便快速使用。安装依赖sudo yum install -y epel-release psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git配置用户和权限添加新用户 hdfs，并赋予 root 权限。如果使用 hdfs 用户作为 Hadoop 默认用户，需要将 hdfs 用户也配置免密登录。adduser hdfspasswd hd.

2022-05-26 00:45:15 866

原创 Mac M1 VM Centos7 大数据数据湖测试

Mac M1 通过VMan安装Centos7.9，并搭建 Hadoop/Hive/Kafka/Flink/Iceberg 本地进行数据湖测试。问题：Paralles Desktop 没找到免费的，所以用了VM，VM也可以网上找。Centos7.9官方版本在VM中不成功，所以使用了别人编译的版本：在m1芯片的MacBook上安装centos7JDK使用 yum 安装 arm64架构的1.8.322版本。MySQL使用官网下载arm64版本。大数据相关组件使用官网二进制包。集.

2022-05-26 00:26:44 1004

原创 Spark3 读写 S3 Parquet, Hive, Hudi

Spark 读 S3 Parquet 写入 Hudi 表目录Spark 读 S3 Parquet 写入 Hudi 表参考关于S3，S3N和S3A的区别与联系Spark 读写 S3 Parquet 文件测试代码pom.xml配置文件EMR Spark任务提交spark-shellspark-submitSpark 读写 Hudi本地测试代码集群上测试spark-shellspark-sqlSpark-submitHive 中测

2022-05-17 11:56:09 5345 1

原创近期关注的大数据开源项目

截止至 2022-02-08计算引擎Service Git Star Contributors Release License Apache Flink 18.1k 1005 v1.14.3 Apache-2.0 Apache Flink：https://github.com/apache/flink数据开发Service Git Star Contributors Release License .

2022-02-08 11:40:33 2875

原创 Flink Hudi 测试

组件版本组件版本 Java 1.8.251 Scala 1.12.14 Flink 1.12.2 hudi 0.9.0 Hadoop 2.9.2 Hive 2.3.6 将hdfs-site.xml，core

2021-09-30 14:33:16 1527 4

原创 Flink Iceberg 测试

本地搭建单节点Hadoop，根据官网示例进行Iceberg功能测试。组件版本组件版本 Java 1.8.251 Scala 1.12.14 Flink 1.12.5 Iceberg 0.12.0 Hadoop 2.9.2 Hive .

2021-09-27 12:52:30 1074 1

原创 Flink 自定义UDTF

Flink自定义函数实现列传行，数据格式为Json数据：[{"key1":"value1","key2":"value2"...}]Java@FunctionHint(output = @DataTypeHint("ROW<drugUniversalName string, specifications string, goodsUnit string, " + "location string, instruction string, consumption strin.

2021-08-11 11:16:28 1959

原创 Flink run application 提交 job

1. 上传 flink 相关 plugins 到hdfs2. 上传 flink 相关依赖到 hdfs3. 上传用户 jar 到 hdfs4. 提交任务flink run-application -t yarn-application \-c com.sm.analysis.rdw.SdkDataEtlOdsToDwd \-Djobmanager.memory.process.size=1600m \-Dtaskmanager.memory.process.size=2048

2021-02-20 17:54:59 2531 1

原创 Scala md5/sha256加密工具类

import java.security.MessageDigest/** * md5, sha256加密 * * create by LiuJinHe 2020/3/27 */object EncodeUtils { def MD5Encode(input: String): String = { // 指定MD5加密算法 val md5 = MessageDigest.getInstance("MD5") // 对输入数据进行加密,过程是先将字符串中.

2021-02-04 23:33:15 1026

原创 Scala Druid连接池工具类

package com.sm.utilsimport java.sql.{Connection, PreparedStatement, SQLException, Statement}import java.util.Propertiesimport com.alibaba.druid.pool.DruidDataSourceFactoryimport com.sm.common.conf.ConfigManagerimport com.sm.constants.Constantsimpo.

2021-02-04 23:28:14 1054 1

原创 Scala HBaseUtils

package com.sm.utilsimport java.util.Propertiesimport java.util.concurrent.{ExecutorService, Executors}import com.sm.common.conf.ConfigManagerimport com.sm.constants.Constantsimport org.apache.flink.hbase.shaded.org.apache.hadoop.hbase.{HBaseConfig.

2021-02-04 23:22:36 447

原创 Scala GuavaUtils

package com.sm.utilsimport java.util.concurrent.TimeUnitimport com.sm.utils.cache.CacheServiceimport org.apache.flink.shaded.guava18.com.google.common.cache.{Cache, CacheBuilder, CacheLoader}import org.apache.flink.shaded.guava18.com.google.common.u.

2021-02-04 23:19:23 515

原创 Scala json4s Json解析工具类

package com.sm.utilsimport java.utilimport com.sm.common.utils.DateUtilimport org.apache.commons.lang3.StringUtilsimport org.json4s._import org.json4s.jackson.JsonMethods._import org.json4s.jackson.Serializationimport org.json4s.jackson.Serializa.

2021-02-04 23:02:10 828

原创 FlinkSQL 数据去重，读写HBase，Kafka

需求：日活明细分析，需要保存日活明细数据。通过对登录数据去重得到日活，但是因为乱序数据，客户端时间可能会存在变化。1. Flink窗口排序去重，写入HBase。import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.res..

2020-10-22 17:54:05 2023 1

原创 FlinkSQL Kafka to Hive

import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}import org.apache.flink.streaming.api.environme.

2020-10-22 16:36:32 2396 6

原创 FlinkSQL MySQL CDC

package com.sm.jobimport com.sm.function.udf.{ParseDeviceCode, ParsePopularize}import com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j...

2020-10-22 16:20:53 3096

原创 FlinkSQL 读写 MySQL

package com.sm.jobimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.log4j.Levelimport org.slf4j.LoggerFactory/** * flinkSQL 读写 mysql.

2020-10-22 15:41:32 7774 2

原创 FlinkSQL MySQL维表关联

需求：消费Kafka数据，进行数据清洗及维表关联补齐字段，最后结果写入Kafka。import java.time.Durationimport com.sm.function.udf._import com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.api.common.restartstrategy..

2020-10-22 15:25:33 2560 1

原创 FlinkSQL Kafka to Kafka

FlinkSql 1.11 读写 Kafka 简单测试。FlinkSql 读 Kafkaimport org.apache.flink.streaming.api.scala._import org.apache.flink.table.api.EnvironmentSettingsimport org.apache.flink.table.api.bridge.scala.StreamTableEnvironmentimport org.apache.flink.types.Row.

2020-08-12 23:39:34 1172

原创 CDH6.2 安装 Pheonix

官方文档：phoenix_installationParcel 下载地址：https://archive.cloudera.com/phoenix/6.2.0/parcels/csd 下载地址：https://archive.cloudera.com/phoenix/6.2.0/csd/PHOENIX-1.0.jar1. Parcel 配置在线方式CDH - Parcel - 配置 - 远程 Parcel 存储库 URL - "+"https://archive..

2020-08-10 12:33:06 672

原创 Scala DateTime工具类

SimpleDateFormat 线程不安全，使用 joda-time 实现的DateTime工具类import java.util.Dateimport org.joda.time.{DateTime, Instant}import org.joda.time.format.{DateTimeFormat, DateTimeFormatter}/** * 日期时间工具类 * * Joda实现 */object DateUtil { val DATE_FORMAT:.

2020-07-12 23:44:41 1874

原创 Centos7.4 RPM 安装 MySQL8.0.17

只是安装用于测试，没有进行MySQL相关配置。1. 卸载原装SQLrpm -qa | grep mariadb # mariadb-libs-5.5.52-1.el7.x86_64 rpm -e --nodeps mariadb-libs-5.5.52-1.el7.x86_64 rpm -qa | grep mysql2. 安装顺序：common - libs - client - servermysql-community-common-8.0.15-1.el7..

2020-07-10 22:43:27 757

原创 Flink 侧输出流拆分流应用

业务场景：使用Flink同步Kafka数据近实时写入MySQL，需要将登录数据拆分为登录，日活，新增分别入三个MySQL表。采用侧输出流将流拆分为多个流，分别进行处理。/** * Flink 读取 Kafka，每秒聚合一次数据，批量写入 MySQL * * create by LiuJinHe 2020/5/26 */object CpDataKafkaToMySQL { private val logger = LoggerFactory.getLogger(thi...

2020-05-27 14:51:53 1360

原创 CDH6.2 添加新节点

集群有三个节点，需要新添加两个节点集群： 10.0.0.22 cdh-master 10.0.0.23 cdh-slave01 10.0.0.24 cdh-slave02 添加节点： 10.0.0.26 cdh-slave03 10.0.0.27 cdh-slave04基础配置服务器配置按以前配置：Centos7.3安装CDH6.0.1之基础环境配置1. 配置新节点hosts和映射hostnamectl set-hostname cdh-slave03 # 各服务器都添加新节..

2020-05-20 16:46:44 3417

原创 Centos7 查看IP，没有 ifconfig 命令问题

查看IPip addrifconfig没有 ifconfig 解决办法yum search ifconfig #======================== Matched: ifconfig ======================== #net-tools.x86_64 : Basic networking tools yum install -y net-tools.x86_64

2020-05-18 13:26:51 2166

原创 Spark insertOrUpdate MySQL数据

需求：使用 Spark 将 Hive 数据同步到 MySQL，MySQL表以其中三个字段作为唯一索引，索引不冲突的数据直接写入，冲突的数据对其中几个字段进行更新。主类import java.util.Propertiesimport com.sm.conf.ConfigManagerimport com.sm.constants.Constantsimport com.sm....

2020-04-02 14:15:03 820 2

原创 Flink 消费 Kafka 数据批量写入 MySQL 多个表

业务场景：sdk 数据统一入Kafka 的一个 topic（topic_sdk_log），其中包含多种事件类型数据，如：登录，注册，激活等，需要将 Kafka 中数据根据事件类型分别写入 MySQL 多个表。这里使用 Flink 每5秒写入 MySQL 不同表。数据示例：{"key":"login","data":{"_game_version":"","_package...

2020-04-01 10:20:40 4313

原创 MySQL JDBC 写入数据报错 Duplicate entry

JDBC批量数据插入时，报错 Duplicate entry：Duplicate entry '2020-03-23 15:36:01-14340200-ysdk_oU7Gj1VmYZsiImIiGCQIezAOtD5M' for key 'UK_G_U_E'原因：MySQL表建了唯一索引，用于过滤重复数据。UNIQUE KEY `UK_G_U_E` (`TIME`,`...

2020-03-31 12:07:56 1511

原创 Flume 单节点安装连接 kafka

阿里镜像：flume1. 解压安装cd /opt/apps/tar -zxvf apache-flume-1.9.0-bin.tar.gzmv apache-flume-1.9.0-bin flume-1.9.02. 添加环境变量echo 'export FLUME_HOME=/opt/apps/flume-1.9.0' >> /etc/profile \...

2020-03-13 12:10:08 475

原创 Redis 布隆过滤器存储查询千万级用户数据

实时业务需要计算新增用户，从 Hive 加载用户表到内存存储，但是几千万数据放到内存占用资源，查询效率也低。使用 Redis 位图进行存储，可以有效减少内存占用，提高查询效率。这里使用Spark 查询，Redis 位图存储。这里 Scala + Spark local模式 +Redis 单节点测试。测试了几种 Hash 算法，单一 Hash 算法效果或者效率都不是很满意，在万级到...

2020-03-12 15:27:06 2474

原创 Linux Cannot assign requested address

ConnectException: Cannot assign requested address (connect failed)原因在存在大量短连接的情况下，虽然 socket 正常关闭，但默认60s后释放，而不是立即释放，所以处于TIME_WAIT状态。Linux 连接端口（65535）用尽，就会造成这个异常。查看查看进程，有很多 TIME_WAIT 状态的。net...

2020-03-05 22:13:17 2976

原创 Redis info memory信息说明

127.0.0.1:6379> info memory# Memoryused_memory:87795176 # Redis分配的内存总量(byte)，包含redis进程内部的开销和数据占用的内存used_memory_human:83.73M # Redis分配的内存总量(mb)used_memory_rss:2223185...

2020-03-05 12:17:06 4683

原创 Redis 及RedisBloom 安装

下载地址：Redis、 RedisBloomRediswget http://download.redis.io/releases/redis-5.0.7.tar.gztar -zxvf redis-5.0.7.tar.gz -C /opt/apps/cd /opt/apps/redis-5.0.7make查看是否生成启动ls /usr/local...

2020-03-04 16:19:32 2925 1

原创 Spark 远程读写 Hive (HDFS) 失败

[WARN] - I/O error constructing remote block reader.java.net.ConnectException: Connection timed out: no further information ...[WARN] - Connection failure: Failed to connect to /10.0.0.24...

2020-03-02 14:53:58 2961

原创 Iptables 常用设置命令

1、iptables规则基本格式iptbales[-t table]COMMANDchainCRETIRIA-jACTION# -t table: 3个 filter nat mangle# COMMAND：定义如何对规则进行管理# chain：指定你接下来的规则到底是在哪个链上操作的，当定义策略的时候，是可以省略的# CRETIRIA：...

2020-02-27 12:43:17 1257

原创 CDH 集群修改IP

1. 停止CDH集群及 CM 服务# 主节点systemctl stop cloudera-scm-serversystemctl stop cloudera-scm-agent# 从节点systemctl stop cloudera-scm-agent2. 修改元数据数据库 scm 下HOSTS 表中，主机名对应的ipselect host_id, nam...

2020-02-24 17:32:20 1156

原创 Scala String 与 InputStream 互转

1. String 转 InputStreamval is = new ByteArrayInputStream(str.getBytes())// 转 BufferedInputStreamval bis = new BufferedInputStream(is)// 打印Stream.continually(bis.read()).takeWhile(_ != -1).for...

2020-01-19 19:54:12 1388

原创 Redis 主从复制

Redis主从复制，就是主节点数据更新后根据配置和策略，自动同步到从节点的 Master/Slaver 机制，Master以写为主，Slave以读为主。1. 主从复制模式1. 作用1.数据冗余，实现了数据的热备份。2. 负载均衡，读写分离，性能扩展。3. 容灾快速恢复。4. 主从复制是Rdis哨兵和集群模式的基础。2. 配置配从不配主原则。主从复制完全是在...

2020-01-17 15:57:57 393

原创 Redis 持久化

1. Redis 的两种持久化方式RDB （Redis DataBase）在指定的时间间隔内将内存中的数据集快照写入磁盘，也就是Snapshot快照，它恢复时是将快照文件直接读到内存里。Redis会单独创建（fork）一个子进程来进行持久化，会先将数据写入到一个临时文件中，待持久化过程都结束了，再用这个临时文件替换上次持久化好的文件。整个过程中，主进程是不进行任何IO操作的，这就确保...

2020-01-17 10:17:33 382

Spark介绍及应用分享讲座ppt

Spark介绍、为什么选择使用Spark、应用场景、及常用操作动态演示。特意为公司Spark分享培训整理的ppt。分享使人愉快，@_^~

2019-06-06

flink-1.14.4-scala_2.12 + CDH6.2.1 版 parcel 包

flink-1.14.4-scala_2.12 + CDH6.2.1 版 parcel 包，包含 FLINK-1.14.4-BIN-SCALA_2.12-el7.parcel FLINK-1.14.4-BIN-SCALA_2.12-el7.parcel.sha manifest.json （以上三个文件放入 /opt/cloudera/parcel-repo/ 下） FLINK_ON_YARN-1.14.4.jar FLINK-1.14.4.jar （以上三个文件放入 /opt/cloudera/csd/ 下）另外需要将以下两个包放入 /opt/cloudera/parcels/FLINK/lib/flink/lib 下 commons-cli-1.5.0.jar flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar

2022-03-30

scala-2.11.12.tgz

scala-2.11.12.tgz，spark开发常用的编程语言，分享快乐~~

2019-06-27

httpd-2.4.39.tar.gz

httpd-2.4.39.tar.gz，Apache安装包httpd-2.4.39.tar.gz

2019-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人