大数据 --------- ETL日志数据到HBase表中代码思路

最新推荐文章于 2023-01-03 14:17:08 发布

Iamarookie999

最新推荐文章于 2023-01-03 14:17:08 发布

阅读量207

点赞数

本文链接：https://blog.csdn.net/Iamarookie999/article/details/98793103

版权

思路：
1. Spark App 配置：
应用的名字
Master运行的位置
序列化的格式（在后续的代码中 ImmutableBytesWritable 需要）

2. 创建SparkContext对象
主要用于读取需要处理的数据，封装在RDD集合中，调度Jobs执行

2.1 读取日志
从哪读，路径

2.2 解析日志数据
2.2.1 map解析每条数据
（1）调度工具，进行解析
（2）得到的是Java的Map集合
（3）获取事件类型

3.对数据进行转化（ImmutableBytesWritable,Put）
在这里，之前设置的序列化格式就用到了，因为ImmutableBytesWritable不能自己序列化
（1）存储事件类型
（2）将集合List变量广播出去
（3）针对时间类型进行过滤eventType（这里可以用模式匹配来做）
RowKey：时间戳_访客ID
访问时间
用户唯一标识符
会员ID
时间类型别名
（4）创建Put对象
转化rowKey
（5）将Java类型转Scala类型

4. 将RDD中数据保存HBase表中
（1）创建表(判断)：是否存在，不存在创建
（2）设置输出OutputFormat
（3）设置保存到HBase表的名称
（4）设置输出目录（HDFS上）

5. 保存，关闭资源

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Iamarookie999

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

网站log日志etl项目(带模拟数据，代码，部分代码解析)

12-03

etl大概描述：用来将数据从数据源端抽取，转换，加载到目的端的过程。一般而言etl有实时etl和离线etl，这个项目介绍的是离线etl项目，代码中没有配置远程提交集群，如需集群运行需要自行打包代码提交到集群。

大数据 ETL日志数据到HBase表中代码思路

一只菜鸡

08-06

415

思路： 1. Spark App 配置：应用的名字 Master运行的位置序列化的格式（在后续的代码中 ImmutableBytesWritable 需要） 2. 创建SparkContext对象主要用于读取需要处理的数据，封装在RDD集合中，调度Jobs执行 2.1 读取日志从哪读，路径 2.2 解析日志数据 2.2.1 map解析每条数据（1）调度工具，进行...

参与评论您还未登录，请先登录后发表或查看评论

ETL日志数据到HBASE表中，程序代码优化点

yhquser的博客

08-06

230

1.创建表的时候设置表的数据压缩创建预分区设置读取表中的数据不缓存 2.spark程序的优化 .filter(tuple =>eventTypeList.contains(EventEnum.valueOfAlias(tuple._1))) eventTypeList是Driver里面，filter是在Executor里面task运行如果是一个数据库对应一个分区，一个分区对应一个Ta...

大数据采集及ETL数据清洗实现（全套视频+课件讲义+代码）

03-14

常见网站日志生成过程业务详解企业数据采集方案介绍 Flume拦截器、channel选择器、sink 处理器回顾 Flume实现日志采集到HDFS并自动分区定时调度Shell脚本实现日志数据分区上传HDFS ETL实现思路分析 ETL中Driver类的实现 ETL中自定义Key的实现 ETL日志解析类的代码实现 ETL开发Mapper代码开发实现 ETL程序打包测试

hbase 客户端_Hbase系列-写流程

weixin_39759995的博客

12-01

137

前言读写流程是hbase中最重要也是最复杂的一个过程,本文主要是介绍hbase的读写是一个怎么样的过程本图片摘自官网1 Hbase写入流程 1.1 LSM树简介 Hbase是采用LSM(Log-Structured Merge Tree)架构,存储引擎和B树存储引擎一样，同样支持增、删、读、改、顺序扫描操作。而且通过批量存储技术规避磁盘随机写入问题。当然凡事有利有弊，LSM树和B+树相比，LS...

行业分类-设备装置-基于日志解析技术的PG数据库到Hadoop平台的数据同步复制方法.zip

08-18

例如，PG中的表格结构可能需要转化为Hadoop中的Hive表或者HBase表，这通常通过ETL（提取、转换、加载）工具来完成。 7. **性能优化**：为了提高数据同步效率，需要考虑各种性能优化策略，如选择合适的日志解析算法...

京东金融大数据剖析平台总体架构-v1.0-0827.pptx

11-17

1. 数据采集：平台首先需要从各种数据源（如交易系统、用户行为日志、社交媒体等）收集海量数据，这一过程可能涉及到ETL（提取、转换、加载）工具和实时流处理技术。 2. 数据存储：大量数据需要被安全、高效地存储...

行业分类-设备装置-大数据平台搭建系统、方法、设备及计算机可读介质.zip

08-24

在当前的数字化时代，大数据平台已经成为企业不可或缺的基础设施，它能帮助企业从海量数据中提取价值，推动业务创新和发展。本文将深入探讨“行业分类-设备装置-大数据平台搭建系统、方法、设备及计算机可读介质”这...

行业分类-设备装置-构建数据平台的方法及装置.zip

08-18

2. **数据存储**：选择合适的数据库系统是关键，如关系型数据库（如MySQL、Oracle）、非关系型数据库（如MongoDB、HBase）或大数据存储解决方案（如Hadoop HDFS）。存储策略需根据数据类型、访问模式和业务需求来...

大数据-互联网大厂面试真题附含答案03.pdf

04-09

1. **大数据组件**：面试中提到了大数据组件，最常见的是Hadoop MapReduce（MR）、Hive、HBase等。MapReduce是分布式计算的基础，主要负责大规模数据集的并行计算；Hive是基于Hadoop的数据仓库工具，用于数据ETL...

ETL 工具kettle入门例子大全

11-14

Kettle是一款国外开源的etl工具，纯java编写，绿色无需安装，数据抽取高效稳定。基础转换，job则完成整个工作流的控制。本文ETL 工具kettle入门例子大全主要结合实际操作给大家讲解，快速提升战斗力

ETL加载策略

weixin_33709364的博客

09-12

1182

2019独角兽企业重金招聘Python工程师标准>>> ...

ETL工具kettle 日志表配置及工作流程

Baishu的专栏

03-23

7978

Kettle日志表配置和使用 @(baishu) [TOC] 当系统中ETL过程中存在多种行为且设置了每日执行增量，这无疑会造成系统数据的审计和校验的巨大麻烦。幸运的是kettle本身已经为我们提供了记录增量行为的配置项。初始化日志表当我们第一次使用日志表的配置时，我们需要先在数据库内生成对应的日志表。其实这一步我们也无需自己设计建表语句，在spoon内我们可以直接手动创...

ETL详解

lilenglya的博客

12-03

474

什么是ETL ETL，是英文 Extract-Transform-Load 的缩写，用来描述将数据从来源端经过抽取（extract）、交互转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。(百度百科) ETL是构建数据仓库的重要一环，用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去...

ETL基础知识

weixin_45216482的博客

03-07

879

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候我们也是从这三部分出发。数据的抽取是从各个不同的数据源抽取到ODS(Operational Data Store，操作型数据存储)中——这个

ETL学习之八：添加日志记录

码农中的战斗鸡的博客

05-17

553

Microsoft SQL Server 2005 Integration Services (SSIS) 包含日志记录功能，这些功能使您可以通过提供任务和容器事件跟踪来对包执行进行疑难排解和监控。日志记录功能非常灵活，可以在包级别或在包中的各个任务和容器上启用。可以选择要记录的事件，也可以对单个包创建多个日志。日志记录由日志提供程序提供。每个日志提供程序可以将日志记录信息写入不同的格式和目标类型。Integr...

实时即未来，大数据项目车联网之原始数据实时ETL任务HBase调优【九】