灌木丛中的微风-CSDN博客

原创大数据学习之CDH6.3.2搭建

大数据中的CDH，全称为Cloudera Distribution Including Apache Hadoop，是由Cloudera公司提供的一个集成了Apache Hadoop及相关生态系统的发行版本。它是一个大数据平台，旨在简化和加速大数据处理分析的部署和管理。cdh01和cdh01,cdh02,cdh03之前配置免密。企业中可用其对服务器集群进行管理。在window中也配置一下。将下载好的安装包上传服务器。

2024-08-18 21:24:05 747

原创大数据学习之搭建canal

开启binlog之后mysql的性能会手动影响。

2024-08-16 09:04:38 403

原创 Flink学习之Flink SQL（补）

启动yarn-session启动Flink SQL客户端测试重启SQL客户端之后，需要重新建表。

2024-08-06 21:42:14 1271

原创 Flink学习之Flink SQL

启动yarn-session启动Flink SQL客户端测试重启SQL客户端之后，需要重新建表。

2024-08-04 20:46:31 1117

原创 Spark学习之SaprkCore

FlinkCore1、JavaAPI1、创建一个Topic并写入数据向Kafka写数据如果topic不存在则会自动创建一个副本和分区数都是1的topicpackage com.shujia.kafka;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import java.util.Properties;pu

2024-08-02 19:47:45 1487

原创 Kafka的搭建及使用

在生产和消费数据时，如果topic不存在会自动创建一个分区为1，副本为1的topic。__consumer_offsetsL kafka用于保存消费便宜量的topic。进入zookeeper的命令行，查看里面所存储的元数据信息。进行命令行界面：zkCli.sh。启动：zkServer.sh。

2024-07-31 19:36:42 495

原创大数据学习之Flink基础（补充）

Flink基础1、系统时间与事件时间系统时间（处理时间）在Sparksreaming的任务计算时，使用的是系统时间。假设所用窗口为滚动窗口，大小为5分钟。那么每五分钟，都会对接收的数据进行提交任务.但是，这里有个要注意的点，有个概念叫时间轴对齐。若我们在12：12开始接收数据，按道理我们会在12：17进行提交任务。事实上我们会在12：20进行提交任务，因为会进行时间轴对齐，将一天按照五分钟进行划分，会对应到12：20。在此时提交任务，后面每个五分钟提交任务，都会对应到我们所划分的时间轴。事

2024-07-30 20:52:45 578

原创 Flink集群搭建

Standalone模式初步学习时，没有其它可用框架了解即可。

2024-07-29 19:08:53 485

原创大数据学习之Flink基础

只有在Source启动时会执行一次run方法如果会结束，则Source会得到一个有界流run方法如果不会结束，则Source会得到一个无界流import org// TODO 使用自定义source类，通过addSource对其进行添加 DataStream < String > mySourceDS = env . addSource(new MySource());/*** 只有在Source启动时会执行一次* run方法如果会结束，则Source会得到一个有界流。

2024-07-26 21:10:59 620

原创 Hadoop、Hive、HBase、数据集成、Scala阶段测试

ResourceManager 是 YARN 架构中的核心组件之一，负责接收客户端提交的作业（如 MapReduce 任务、Spark 任务等），并为这些作业分配资源（如内存、CPU）以在集群中的 NodeManager 上执行。spark的任务调度流程：driver端，遇到action算子触发任务执行，将任务提交到有向无环图，DAGscheduler中，根据RDD的血缘关系划分划分stage，将RDD中的分区封装成taskset任务，发送到TASKscheduler。

2024-07-24 21:14:44 1910 2

原创大数据学习之sparkstreaming

指令：spark-submit --master yarn --deploy-mode client --class com.shujia.streaming.Demo6YarnSubmit spark-1.0.jar。Option: 当前批次输入键对应的value值，如果历史中没有该键，这个值就是None, 如果历史中出现了这个键，这个值就是Some(值)2、有状态算子使用的时候，需要提前设置checkpoint的路径，因为需要将历史批次的结果存储下来。

2024-07-22 19:01:32 806

原创大数据学习之常见问题1

数据仓库：对数据进行采集、清洗、加工和输出是一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理决策过程。雪花模型：它是星型模型的一个扩展，有一个或多个维表没有直接连接到事实表上，而是通过其他维表连接到事实表上星型模型：星型模型是多维的数据关系，它由事实表（Fact Table）和维表（Dimension Table）组成。每个维表中都会有一个维作为主键，所有这些维的主键结合成事实表的主键。所有维表都直接连接到“事实表”上。

2024-07-19 15:37:51 1041

原创大数据学习之SparkSQL（补充）

步骤：1、自定义类继承UDF类，重写evaluate方法2、打包，spark-1.0.jar 将jar包放到spark目录下的jars目录下 /usr/local/soft/spark-3.1.3/jars3、在spark-sql命令行中注册函数def evaluate(line: String): String = "拼接自定义前缀：" + line。

2024-07-18 22:59:23 904

原创 Spark学习之SparkSQL

Spark SQL中的DataFrame DSL（Domain Specific Language，领域特定语言）是一种用于处理DataFrame的编程风格，它允许开发者以命令式的方式，通过调用API接口来操作DataFrame。这种风格**介于代码和纯SQL之间，**提供了一种更加灵活和强大的数据处理方式。DataFrame DSL（Domain Specific Language，领域特定语言）中的。idea里面将代码编写好打包上传到集群中运行，上线使用。

2024-07-16 20:32:10 783 1

原创大数据学习之Spark基础（补充）

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-3.1.3/etc/hadoop/yarn-site.xml)（Hadoop配置时已配置）在该模式下运行时，必须保证node1、node2的/usr/local/soft/spark-3.1.3/examples/jars下由所要运行的jar包。checkpoint是永久将rdd数据持久化，将来执行的时候，直接从检查点的rdd往后执行。获取yarn程序执行日志执行成功之后才能获取到。

2024-07-14 18:30:18 1233 1

原创大数据学习之Spark基础

后一个RDD中的分区数据，除KV函数以外，对应的是前一个RDD中的分区数据所进行逻辑处理后的结果。当重复触发相同的执行的时候，对于同一个DAG有向无环图而言，会直接从shuffle之后的RDD开始执行（省略从前一个RDD写数据到磁盘中的过程），可以直接从磁盘读取数据。1）窄依赖前一个RDD中的某一个分区数据只会到后一个RDD中的某唯一分区中一对一（也可能前多个分区到后一个分区中）的关系。RDD中流动的数据，可能会来自不同的datanode中的block块数据。

2024-07-11 22:16:31 1129

原创大数据学习之 scala基础（补充）

scala基础：hello world:写scala可运行文件的注意事项1、如果一个scala文件要运行，class要改成object2、如果是class，就仅单纯代表一个类，如果是object代表的是单例对象3、scala语法中，一句话结束不需要加分号4、scala文件中，可以无缝使用java中的类和方法object HelloWorld { def main(args: Array[String]): Unit = { // 输出一句hello world pr

2024-07-08 20:14:26 501

原创 scala基础

使用try、catch捕获异常。异常抛出（与java中很像）scala中定义class类。伴生对象（apply方法）scala面向函数式编程。函数当作参数传递的应用。

2024-07-06 16:00:51 380

原创大数据学习之Clickhouse

clickhouse 官网网址：https://clickhouse.com/ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。OLAP 种类系统架构的的特点。

2024-07-01 21:32:30 1155

原创大数据学习之分布式数据采集系统Flume学习

使用Flume采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。在该案例中，我们以端口数据模拟日志，模拟不同类型的日志，我们需要自定义interceptor区分内容是否包含shujia，将其分别发往不同的分析系统（Channel）。实现代码import org/*** 1. 如何自定义拦截器?* flume的自定义拦截器需要实现Flume提供的Interceptor接口.* 实现抽象方法:* initialize: 完成一些初始化工作.

2024-06-28 22:13:28 1696

原创大数据学习之DataX

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。

2024-06-25 22:54:10 1171

原创大数据学习之各种启动命令汇总

可以将命令写入到一个可执行文件中，执行更加方便（但是要赋予其权限，使其成为可执行文件：chmod +x starthive.sh）Phoenix: 连接sqlline(客户端)zookeeper的启动与停止。mysql 的启动与停止。hadoop的启动与停止。hive 交互与数据加载。redis的启动与停止。hive动态分区、分桶。

2024-06-25 09:26:10 360

原创 HBase进阶与Phenix

HBase进阶与Phenix

2024-06-19 16:13:19 902

原创 HBase学习之HBaseAPI

【代码】HBase学习之HBaseAPI。

2024-06-18 19:10:41 447

原创 HBase架构与基础命令

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的）HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果需要进行实时读写或者随机访问大规模的数据集的时候，会考虑使用HBase。

2024-06-14 22:34:14 457

原创数据仓库学习之hbase-2.2.7分布式搭建

警告信息，不影响使用。

2024-06-13 21:32:06 590 1

原创 Hive函数学习之UDTF与UDAF的应用案例

hive函数、UDTF、UDAF

2024-06-12 13:57:58 671

原创 Java学习之maven

④ 当前项目需要获取其他非公共项目时，需要将项目通过install安装到本地仓库中，再对当前项目添加依赖信息，再重载项目，当要添加的项目是同属一个大项目中的子项目时，此时不需要再通过install进行安装。①为了帮助我们管理项目中的Jar包，如果要在项目中使用第三方包，那么就需要去下载jar包，再将jar包添加到当前项目的目录中，再去将jar包选择添加为当前项目的依赖。①子项目可以继承父项目中的依赖，但是子项目中也可以添加对相同名称版本不同的依赖，根据就近原则，选择当前依赖最近的jar包版本。

2024-06-06 10:11:16 1279