大数据技术
文章平均质量分 86
大数据组件的基本学习,内包括组件Scala,spark,hive,flume,flink,Kafka,Maxwell...,并且针对大数据应用技术比赛,使用spark,flink等相关组件,对数据进行数据采集,数据抽取,数据清洗,指标计算等等方面,适合面向大数据技术专业,和大数据技术比赛的同学。
约定Da于配置
如有疑问,请到相关文章评论区提问[玫瑰]。
目前接触方向为:前后端,大数据,算法,数据分析与可视化。
蓝桥杯Java组国三、
金砖职业技能大赛数据分析国际三,大数据省奖。
国家奖学金。
在职大专,勿喷。
随缘更新,点个关注不迷路。备考专升本中:目标湖北师范大学
展开
-
大数据之使用Flink消费Kafka中topic为ods_mall_log的数据,根据不同的表前缀区分在存入Kafka的topic当中
HBase是一个Apache Hadoop生态系统中的分布式NoSQL数据库。它是一个面向列的数据库,旨在提供高度可扩展性和可靠性,以便处理大规模数据集。HBase的设计灵感来自于Google的Bigtable论文,并且提供了类似于Bigtable的数据模型和API,但是开源和可扩展。HBase的数据存储在Hadoop HDFS(Hadoop分布式文件系统)上,并且可以在多个节点上分布式存储和处理。它支持高并发读写操作,具有快速的随机读/写访问速度,并且能够处理PB级别的数据集。原创 2023-05-08 08:15:52 · 1485 阅读 · 0 评论 -
大数据之使用Flink消费Kafka中topic为ods_mall_data的数据,根据数据中不同的表将数据分别分发至kafka的DWD层
将本题的难度解决好,总结一下Flink版本的特点,因为Flink到目前能够普及下来的并不成熟,网上的方法教程也很少,并不像Spark那样。综上,本题需要较全面的Kafka和Flink技能,并具备一定的编程能力和调试经验,因此可能对初学者而言会有一定难度。动态表格功能支持:Flink 1.14引入了动态表格功能,可以在不修改代码的情况下对流和批处理程序进行修改,使得它们可以支持更加灵活的工作负载。集成Kettle:Flink 1.14集成了Kettle,可以通过使用Kettle插件来实现ETL工作。原创 2023-05-07 17:47:05 · 4963 阅读 · 6 评论 -
大数据之指标计算(8) -- 使用Spark根据dwd层fact_change_record表展示每一个设备最近第二次的状态(倒数第二次),...返回结果存入clickhouse数据库
这是一个关于使用Scala和Spark展示每一个设备最近第二次状态并将结果存储在clickhouse数据库中,然后在Linux命令行工具中查询前五条设备id倒序排列的数据的问题。下面是具体的要求和表结构:在dwd层fact_change_record表中,统计每一个设备最近第二次的状态(倒数第二次),时间字段选择change_start_time,如果设备仅有一种状态,返回该状态(一个设备不会同时拥有两种状态),得到设备id(machine_id)、状态信息(record_state)、状态开始时间(c原创 2023-05-07 16:32:05 · 589 阅读 · 1 评论 -
大数据之指标计算(7) -- 使用Spark根据dwd层fact_change_record表和dim_machine表统计,计算每个车间设备的月平均运行时长与所有设备的月平均运行时长对比结果
这是一个关于使用Scala和Spark统计每个车间设备的月平均运行时长并与所有设备的月平均运行时长做比较,并将结果存储在clickhouse数据库中,然后在Linux命令行工具中查询前两条车间号倒序排列的数据的问题。在dwd层fact_change_record表和dim_machine表中关联,统计每个车间设备的月平均运行时长与所有设备的月平均运行时长对比结果,将无法参与计算的设备状态(change_end_time值为空)剔除。原创 2023-05-07 16:20:43 · 611 阅读 · 0 评论 -
大数据之指标计算(6) -- 编写Hive SQL代码,根据dwd层dwd.fact_environment_data表,统计检测设备的每月平均湿度与厂内检测结果做对比存入Mysql数据库中
这是一个关于使用Hive SQL统计检测设备每月平均湿度并将结果存储在MySQL数据库中,并与厂内所有检测设备每月检测结果的平均湿度做比较,然后在Linux的MySQL命令行工具中查询前五条检测设备ID倒序排列的数据的问题。在dwd层fact_environment_data表中,统计每个检测设备(BaseID)每月的平均湿度(Humidity),得到base_id、env_date_year、env_date_month和每月平均湿度字段。原创 2023-05-07 16:06:45 · 1644 阅读 · 0 评论 -
大数据之指标计算(5) -- 使用Spark根据dws层的dws.machine_produce_per_avgtime表,获取各设备生产耗时最长的两个产品的用时。将结果存入clickhouse数据库
这是一个关于使用Scala和Spark获取各设备生产耗时最长的两个产品的用时,并将结果存储在clickhouse数据库中,然后在Linux命令行工具中查询前两条设备id倒序排列的数据的问题。在dws层的machine_produce_per_avgtime表中,获取各个设备生产耗时最长的两个产品的用时,得到设备id(machine_id)、最长耗时(first_time)和次长耗时(second_time)字段。原创 2023-05-07 15:57:06 · 375 阅读 · 0 评论 -
大数据之指标计算(4) -- 使用Spark根据dwd层dwd.fact_produce_record表,基于全量历史数据计算各设备生产一个产品的平均耗时,将结果存入clickhouse表中
这是一个关于使用Scala和Spark统计各设备生产一个产品的平均耗时,并将高于平均值的数据存储在clickhouse数据库中,然后在Linux命令行工具中查询前三条设备id倒序排列的数据的问题。在dwd层fact_produce_record表中,基于全量历史数据计算各设备生产一个产品的平均耗时,其中produce_code_end_time为1900-01-01 00:00:00的数据为脏数据,需要剔除。原创 2023-05-07 15:43:15 · 505 阅读 · 0 评论 -
大数据之指标计算(3) -- 使用Spark根据dwd.fact_produce_record表,基于全量历史增加设备生产一个产品的平均耗时字段...将结果写入dws层中指定表
这是一个关于使用Scala和Spark统计设备生产一个产品的平均耗时,并将结果存储在clickhouse数据库中,然后在Linux命令行工具中查询前三条设备id倒序排列的数据的问题。在dwd层fact_produce_record表中,基于全量历史增加设备,计算生产一个产品的平均时间字段(produce_per_avgtime),其中produce_code_end_time为1900-01-01 00:00:00的数据为脏数据,需要剔除。这是一个关于使用Scala和Spark统计设备生产一个产品的平均耗时原创 2023-05-07 15:12:51 · 1502 阅读 · 0 评论 -
大数据之指标计算(2) -- 使用Spark根据dwd层fact_change_record表关联dim_machine表统计每个车间中所有设备运行时长...将计算结果存入clickhouse数据库
在dwd层fact_change_record表中关联dim_machine表,统计每个车间中所有设备运行时长的中位数(设备状态为“运行”,未结束的状态不参与计算)。将计算结果存储到clickhouse数据库shtd_industry的表machine_running_median中,表结构包含machine_id(设备id)、machine_factory(所属车间)和 total_running_time(运行总时长,以秒为单位)字段。通过Linux的clickhouse命令行工具查询出前10条车间原创 2023-05-07 14:59:11 · 844 阅读 · 1 评论 -
大数据之指标计算(1)-- 使用Spark根据dwd层fact_change_record表统计每个月、每个设备、每种状态的时长,并将结果存入mysql数据库
本题来源于全国职业技能大赛之大数据技术赛项工业数据处理赛题 - 离线数据处理 - 指标计算注:由于设备问题,代码执行结果以及最后数据显示结果无法显示 涉及组件:Spark,Scala,MySQL。本文将介绍如何使用Scala和Spark对数据库中的数据进行ETL以及计算,最终将结果存储到MySQL数据库中。具体实现过程包括:使用Spark读取数据库表格,数据预处理和清洗,看过往期的代码,这个代码理解起来应该不难聚合函数的使用,主要是对数据处理的思路和方法。习惯后,遇到类似题可以熟练掌握。本期原创 2023-05-07 13:36:12 · 1346 阅读 · 2 评论 -
大数据之使用Maxwell采集MySQL的binlog日志并上传到Kafka
本题来源于2022 年全国职业院校技能大赛(高职组)“大数据技术与应用”赛项(电商)- 实时数据采集。Maxwell是如何监控到数据的,Maxwell读取MySQL的binlog数据并将其转换为易于读取和处理的JSON格式。具体地,它通过连接到MySQL实例的MySQL Slave复制进程来读取binlog数据流,并解析每个事务的事件,生成一个包含当前事件的JSON对象,并将其输出到目标输出源(例如Kafka)。在大数据分析和数据同步场景中,这种机制可以大大简化数据的采集和处理,并实现实时的数据同步。原创 2023-04-26 19:36:26 · 1716 阅读 · 7 评论 -
大数据之使用Flume监听本地文件采集数据流到HDFS,使用正则表达式获取
Flume 是一个广为开发者使用的分布式日志采集工具,在大数据领域中被广泛应用。在实际应用中,我们通常需要使用 Flume 采集本地文件并将它们传输到 HDFS 上进行处理和分析。将本地文件采集到 HDFS 上可以更方便地处理和分析大量数据。HDFS 作为 Hadoop 分布式文件系统之一,具有高容错性和高可扩展性,可以存储大量的数据。Flume 的优点在于它可以快速、可靠地实现数据采集等功能,同时支持各种输入源和输出目的地,包括文件、Kafka、HDFS 等,可以帮助高效地处理大数据。原创 2023-04-26 19:02:14 · 1329 阅读 · 0 评论 -
大数据之使用Flume监听端口采集数据流到Kafka
本题来源于全国职业技能大赛之大数据技术赛项电商赛题 - 实时数据采集题目很简单。大数据处理涉及到海量的数据采集和处理,如何高效地采集数据是一个重要的问题。Flume是一个分布式的、可靠的、高可用的海量日志采集工具,可以轻松地采集、聚合和移动大量的数据。在数据采集过程中,Flume可以使用网络协议、文件系统和各种其他数据源来收集数据。Flume设计了一个事件模型来处理数据,使用称为“通道”的可配置缓冲区来存储事件,以确保数据不会丢失。同时,使用Flume将数据流转到Kafka中,可以满足将大量数据快速稳定地传原创 2023-04-26 18:12:27 · 2778 阅读 · 11 评论 -
大数据之使用Spark增量抽取MySQL的数据到Hive数据库(2)
本题来源于2022 年全国职业院校技能大赛(高职组)“大数据技术与应用”赛项(电商)- 离线数据处理 - 数据抽取数据处理需要灵活的使用sql函数或者spark相关函数对数据进行处理,但思路总体上一样。对于数据处理,还需要掌握好一些非常见但是又很使用的函数。可以与大数据之使用Spark增量抽取MySQL的数据到Hive数据库(1)进行比较,找到他们的不同点,对比一下。该代码实现了将MySQL中的数据按照增量方式导入Hive的过程。该代码适用于需要将MySQL数据定期导入Hive或实现增量数据同步的场景。原创 2023-04-26 17:07:31 · 1514 阅读 · 0 评论 -
大数据之使用Spark增量抽取MySQL的数据到Hive数据库(1)
本题来源于全国职业技能大赛之大数据技术赛项电商赛题-离线数据处理-抽取什么是全量数据、增量数据?1.全量数据:当前需要迁移的数据库系统的全部数据。2.增量数据:在数据库系统迁移过程中,对比原数据,新产生的数据即为增量数据。用于将MySQL数据库中的数据增量导入到Hive数据仓库中的指定表格中。首先,通过SparkSession读取MySQL数据库中的数据,并创建临时视图。然后,使用Spark SQL查询Hive数据仓库中已存在表格的最大修改时间。接着,通过比较MySQL数据库中数据的修改时间和最大修改时间,原创 2023-04-26 16:26:12 · 3013 阅读 · 1 评论 -
大数据之任务清洗编写HiveSQL代码对数据进行抽取或转换
本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据清洗(其他暂不透露)本文仅仅介绍了对Hive数据库操作的过程,题目简单,只要掌握好基本的SQL语法和日期函数的使用,本题难度不大。主要涉及到Hive组件的使用。Hive是一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供了类SQL查询的功能。在数据清洗方面,Hive可以通过使用正则表达式等方式对数据进行清洗和处理,同时原创 2023-03-28 19:26:35 · 1070 阅读 · 0 评论 -
大数据之使用Spark全量抽取MySQL的数据到Hive数据库
使用了spark对MySQL的数据进行操作并保存到了hive数据库,原理大同小异,spark提供了许多api供我们使用,非常的方便和灵活。本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取题目:编写Scala代码,使用Spark将MySQL的shtd_industry库中表EnvironmentData,...全量抽取到Hive的ods库(需自建)中对应表environmentdata,...中。原创 2023-03-25 23:56:09 · 3487 阅读 · 1 评论 -
大数据之使用Flink处理Kafka中的数据到Redis
本题来源于全国职业技能大赛之大数据技术赛项赛题题目:使用Flink消费Kafka中ProduceRecord主题的数据,统计在已经检验的产品中,各设备每五分钟生产产品总数,将结果存入Redis中,key值为“totalproduce”,value值为“设备id,最近五分钟生产总数”。注:ProduceRecord主题,生产一个产品产生一条数据;字段为1代表已经检验,0代表未检验;时间语义使用Processing Time。使用Scala进行编写。提示:以下是本篇文章正文内容,下面案例可供参考。原创 2023-03-24 15:14:54 · 1509 阅读 · 1 评论