自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 收藏
  • 关注

原创 大数据学习之CDH6.3.2搭建

大数据中的CDH,全称为Cloudera Distribution Including Apache Hadoop,是由Cloudera公司提供的一个集成了Apache Hadoop及相关生态系统的发行版本。它是一个大数据平台,旨在简化和加速大数据处理分析的部署和管理。cdh01和cdh01,cdh02,cdh03之前配置免密。企业中可用其对服务器集群进行管理。在window中也配置一下。将下载好的安装包上传服务器。

2024-08-18 21:24:05 747

原创 大数据学习之搭建canal

开启binlog之后mysql的性能会手动影响。

2024-08-16 09:04:38 403

原创 Flink学习之Flink SQL(补)

启动yarn-session启动Flink SQL客户端测试重启SQL客户端之后,需要重新建表。

2024-08-06 21:42:14 1271

原创 Flink学习之Flink SQL

启动yarn-session启动Flink SQL客户端测试重启SQL客户端之后,需要重新建表。

2024-08-04 20:46:31 1117

原创 Spark学习之SaprkCore

FlinkCore1、JavaAPI1、创建一个Topic并写入数据向Kafka写数据 如果topic不存在则会自动创建一个副本和分区数都是1的topicpackage com.shujia.kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import java.util.Properties;pu

2024-08-02 19:47:45 1487

原创 Kafka的搭建及使用

在生产和消费数据时,如果topic不存在会自动创建一个分区为1,副本为1的topic。__consumer_offsetsL kafka用于保存消费便宜量的topic。进入zookeeper的命令行,查看里面所存储的元数据信息。进行命令行界面:zkCli.sh。启动:zkServer.sh。

2024-07-31 19:36:42 495

原创 大数据学习之Flink基础(补充)

Flink基础1、系统时间与事件时间系统时间(处理时间)在Sparksreaming的任务计算时,使用的是系统时间。假设所用窗口为滚动窗口,大小为5分钟。那么每五分钟,都会对接收的数据进行提交任务.但是,这里有个要注意的点,有个概念叫时间轴对齐。若我们在12:12开始接收数据,按道理我们会在12:17进行提交任务。事实上我们会在12:20进行提交任务,因为会进行时间轴对齐,将一天按照五分钟进行划分,会对应到12:20。在此时提交任务,后面每个五分钟提交任务,都会对应到我们所划分的时间轴。事

2024-07-30 20:52:45 578

原创 Flink集群搭建

Standalone模式初步学习时,没有其它可用框架了解即可。

2024-07-29 19:08:53 485

原创 大数据学习之Flink基础

只有在Source启动时会执行一次run方法如果会结束,则Source会得到一个有界流run方法如果不会结束,则Source会得到一个无界流import org// TODO 使用自定义source类,通过addSource对其进行添加 DataStream < String > mySourceDS = env . addSource(new MySource());/*** 只有在Source启动时会执行一次* run方法如果会结束,则Source会得到一个有界流。

2024-07-26 21:10:59 620

原创 Hadoop、Hive、HBase、数据集成、Scala阶段测试

ResourceManager 是 YARN 架构中的核心组件之一,负责接收客户端提交的作业(如 MapReduce 任务、Spark 任务等),并为这些作业分配资源(如内存、CPU)以在集群中的 NodeManager 上执行。spark的任务调度流程:driver端,遇到action算子触发任务执行,将任务提交到有向无环图,DAGscheduler中,根据RDD的血缘关系划分划分stage,将RDD中的分区封装成taskset任务,发送到TASKscheduler。

2024-07-24 21:14:44 1910 2

原创 大数据学习之sparkstreaming

指令:spark-submit --master yarn --deploy-mode client --class com.shujia.streaming.Demo6YarnSubmit spark-1.0.jar。Option: 当前批次输入键对应的value值,如果历史中没有该键,这个值就是None, 如果历史中出现了这个键,这个值就是Some(值)2、有状态算子使用的时候,需要提前设置checkpoint的路径,因为需要将历史批次的结果存储下来。

2024-07-22 19:01:32 806

原创 大数据学习之常见问题1

数据仓库:对数据进行采集、清洗、加工和输出是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理决策过程。雪花模型:它是星型模型的一个扩展,有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上星型模型:星型模型是多维的数据关系,它由事实表(Fact Table)和维表(Dimension Table)组成。每个维表中都会有一个维作为主键,所有这些维的主键结合成事实表的主键。所有维表都直接连接到“事实表”上。

2024-07-19 15:37:51 1041

原创 大数据学习之SparkSQL(补充)

步骤:1、自定义类继承UDF类,重写evaluate方法2、打包,spark-1.0.jar 将jar包放到spark目录下的jars目录下 /usr/local/soft/spark-3.1.3/jars3、在spark-sql命令行中注册函数def evaluate(line: String): String = "拼接自定义前缀:" + line。

2024-07-18 22:59:23 904

原创 Spark学习之SparkSQL

Spark SQL中的DataFrame DSL(Domain Specific Language,领域特定语言)是一种用于处理DataFrame的编程风格,它允许开发者以命令式的方式,通过调用API接口来操作DataFrame。这种风格**介于代码和纯SQL之间,**提供了一种更加灵活和强大的数据处理方式。DataFrame DSL(Domain Specific Language,领域特定语言)中的。idea里面将代码编写好打包上传到集群中运行,上线使用。

2024-07-16 20:32:10 783 1

原创 大数据学习之Spark基础(补充)

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-3.1.3/etc/hadoop/yarn-site.xml)(Hadoop配置时已配置)在该模式下运行时,必须保证node1、node2的/usr/local/soft/spark-3.1.3/examples/jars下由所要运行的jar包。checkpoint是永久将rdd数据持久化,将来执行的时候,直接从检查点的rdd往后执行。获取yarn程序执行日志 执行成功之后才能获取到。

2024-07-14 18:30:18 1233 1

原创 大数据学习之Spark基础

后一个RDD中的分区数据,除KV函数以外,对应的是前一个RDD中的分区数据所进行逻辑处理后的结果。当重复触发相同的执行的时候,对于同一个DAG有向无环图而言,会直接从shuffle之后的RDD开始执行(省略从前一个RDD写数据到磁盘中的过程),可以直接从磁盘读取数据。1)窄依赖 前一个RDD中的某一个分区数据只会到后一个RDD中的某唯一分区中 一对一(也可能前多个分区到后一个分区中)的关系。RDD中流动的数据,可能会来自不同的datanode中的block块数据。

2024-07-11 22:16:31 1129

原创 大数据学习之 scala基础(补充)

scala基础:hello world:写scala可运行文件的注意事项1、如果一个scala文件要运行,class要改成object2、如果是class,就仅单纯代表一个类,如果是object代表的是单例对象3、scala语法中,一句话结束不需要加分号4、scala文件中,可以无缝使用java中的类和方法object HelloWorld { def main(args: Array[String]): Unit = { // 输出一句hello world pr

2024-07-08 20:14:26 501

原创 scala基础

使用try、catch捕获异常。异常抛出(与java中很像)scala中定义class类。伴生对象(apply方法)scala面向函数式编程。函数当作参数传递的应用。

2024-07-06 16:00:51 380

原创 大数据学习之Clickhouse

clickhouse 官网网址:https://clickhouse.com/ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。OLAP 种类系统架构的的特点。

2024-07-01 21:32:30 1155

原创 大数据学习之分布式数据采集系统Flume学习

使用Flume采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。在该案例中,我们以端口数据模拟日志,模拟不同类型的日志,我们需要自定义interceptor区分内容是否包含shujia,将其分别发往不同的分析系统(Channel)。实现代码import org/*** 1. 如何自定义拦截器?* flume的自定义拦截器需要实现Flume提供的Interceptor接口.* 实现抽象方法:* initialize: 完成一些初始化工作.

2024-06-28 22:13:28 1696

原创 大数据学习之DataX

DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。

2024-06-25 22:54:10 1171

原创 大数据学习之 各种启动命令汇总

可以将命令写入到一个可执行文件中,执行更加方便(但是要赋予其权限,使其成为可执行文件:chmod +x starthive.sh)Phoenix: 连接sqlline(客户端)zookeeper的启动与停止。mysql 的启动与停止。hadoop的启动与停止。hive 交互与数据加载。redis的启动与停止。hive动态分区、分桶。

2024-06-25 09:26:10 360

原创 HBase进阶与Phenix

HBase进阶与Phenix

2024-06-19 16:13:19 902

原创 HBase学习之HBaseAPI

【代码】HBase学习之HBaseAPI。

2024-06-18 19:10:41 447

原创 HBase架构与基础命令

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的)HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候,会考虑使用HBase。

2024-06-14 22:34:14 457

原创 数据仓库学习之hbase-2.2.7分布式搭建

警告信息,不影响使用。

2024-06-13 21:32:06 590 1

原创 Hive函数学习之UDTF与UDAF的应用案例

hive函数、UDTF、UDAF

2024-06-12 13:57:58 671

原创 Java学习之maven

④ 当前项目需要获取其他非公共项目时,需要将项目通过install安装到本地仓库中,再对当前项目添加依赖信息,再重载项目,当要添加的项目是同属一个大项目中的子项目时,此时不需要再通过install进行安装。①为了帮助我们管理 项目中的Jar包,如果要在项目中使用第三方包,那么就需要去下载jar包,再将jar包添加到当前项目的目录中,再去将jar包选择添加为当前项目的依赖。①子项目可以继承父项目中的依赖,但是子项目中也可以添加对相同名称版本不同的依赖,根据就近原则,选择当前依赖最近的jar包版本。

2024-06-06 10:11:16 1279

原创 Hive3.1.2分区与排序(内置函数)

Hive3.1.2分区与排序(内置函数)

2024-06-05 10:16:58 1591

原创 Hive3.1.2概述与搭建

Hive3.1.2概述与搭建

2024-06-03 22:07:33 1280

原创 MapReduce学习之MapJoin案例实现

MapReduce

2024-05-30 21:35:29 623

原创 hadoop学习之MapReduce案例:输出每个班级中的成绩前三名的学生

MapReduce

2024-05-28 21:25:56 747

原创 hadoop基础之MapReduce的学习

MapReduce

2024-05-27 22:04:24 941

原创 Hadoop学习之hdfs的操作

将HDFS中的文件复制到本地、上传数据到HDFS中、在HDFS上创建文件目录 、删除HDFS上的文件目录、查看HDFS文件系统中文件和目录的元数据

2024-05-26 22:31:29 1231

原创 大数据学习之安装并配置maven环境

安装并配置maven环境

2024-05-24 21:58:09 720

原创 大数据学习之 Hadoop部署

Hadoop部署

2024-05-23 22:04:16 1502

原创 Java学习之异常抛出

异常种类、自定义异常、Try/Catch

2024-05-12 19:03:32 808 1

原创 Java学习之File类

文件路径、文件、目录的创建、删除和重命名、File类方法、File类中list()方法、

2024-05-11 10:16:32 613

原创 Java学习之多线程的总结

多线程、线程控制、线程同步、Lock锁、线程组、线程池、Timer的任务调度

2024-05-09 21:23:05 898

原创 Java学习之集合3

TreeSet、Map、TreeMap、Collections工具类

2024-05-08 10:44:56 585

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除