阿诺漫漫跑-CSDN博客

原创 Scala 变量和数据类型

Scala是完全面向对象的语言，所以不存在基本数据类型的概念，有的只是任意值对象类型（AnyVal）和任意引用对象类型(AnyRef)变量的类型如果能够通过变量值推断出来，那么可以省略类型声明，这里的省略，并不是不声明，而是由Scala编译器在编译时自动声明编译的。“开头的标识符为保留的 Scala 编译器产生的标志符使用，应用程序应该避免使用”$"开始的标识符，以免造成冲突。在 Scala 中，字符串的类型实际上就是 Java中的 String类，它本身是没有 String 类的。

2024-05-11 01:13:17 848 1

原创大数据实时数仓核心组件 Apache Flink 部署笔记

Flink的官网主页地址：https://flink.apache.org/Flink核心目标，是“数据流上的有状态计算”具体说明：Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。无界数据流：有定义流的开始，但没有定义流的结束；它们会无休止的产生数据；无界流的数据必须持续处理，即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理，因为输入是无限的。

2024-05-10 17:31:05 2897

原创 MySQL 触发器

MySQL从 5.0.2 版本开始支持触发器。MySQL的触发器和存储过程一样，都是嵌入到MySQL服务器的一段程序。触发器是由事件来触发某个操作，这些事件包括 INSERT 、 UPDATE 、 DELETE 事件。所谓事件就是指用户的动作或者触发某项行为。如果定义了触发程序，当数据库执行这些语句时候，就相当于事件发生了，就会自动激发触发器执行相应的操作。当对数据表中的数据执行插入、更新和删除操作，需要自动执行一些数据库逻辑时，可以使用触发器来实现。

2024-05-10 00:31:39 1145 1

原创大数据数据采集 Apache-Flume 笔记

-Dflume.root.logger=INFO,console ：-D表示flume运行时动态修改flume.root.logger参数属性值，并将控制台日志打印级别设置为INFO级别。 --conf-file/-f：flume本次启动读取的配置文件是在conf文件夹下的nc-flume-log.conf文件。将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。修改apache-flume-1.10.1-bin的名称为flume。

2024-05-08 23:55:03 1963

原创大数据 Phoenix 安装部署手册

解压到/opt/module 改名为phoenix。在phoenix目录下。

2024-05-08 00:14:45 239

原创大数据调度apache-dolphinscheduler 安装部署手册

DolphinScheduler 支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluster）等。

2024-05-08 00:03:12 1899

原创大数据调度 Apache Airflow 安装部署

Airflow是基于Python的，就是Python中的一个包。安装要求Python3.6版本之上，Metadata DataBase支持PostgreSQL9.6+，MySQL5.7+，SQLLite3.15.0+。

2024-05-06 23:29:48 893

原创 Typora 使用总结好用主题推荐

Typora 是一款由 Abner Lee 开发的[轻量级] Markdown 编辑器，与其他 Markdown 编辑器不同的是，Typora 没有采用[源代码]和预览双栏显示的方式，而是采用所见即所得的编辑方式

2024-05-06 20:28:51 3453 1

原创 MySQL 经典练习题 50 道

【代码】MySQL 经典练习题 50 道。

2024-05-05 17:52:02 317

原创 Hadoop 大数据之 Mapreduce 笔记一

1）什么是序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。2）为什么要序列化一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。3）为什么不用 Java 的序列化。

2024-05-05 15:38:00 920

原创大数据Hive常用函数大全

大数据 hive 常用函数大全，持续更新中......

2024-05-05 00:45:02 2561

原创大数据 Kafka 面试题总结

查看是否存在脏数据（zookeeper和kafka数据目录数据都要清理）。

2024-05-04 23:56:20 1167 2

原创大数据常用命令-Kafka

待 kafka 关闭完成后，按需关闭 Zookeeper 集群。先启动 Zookeeper 集群，然后启动 Kafka。–replication-factor 定义副本数。修改分区数（注意：分区数只能增加，不能减少）把主题中所有的数据都读取出来（包括历史数据）–partitions 定义分区数。查看当前服务器中的多有 topic。依次在各节点上启动 Kafka。依次在各节点上关闭 Kafka。–topic 定义topic名。查看操作生产者命令参数。查看操作消费者命令参数。查看操作主题命令参数。

2024-05-04 21:57:46 1066 2

原创 Doris 安装部署

设置系统最大打开文件句柄数(注意这里的*不要去掉)设置最大虚拟块的大小重启生效。

2024-05-04 21:38:51 596

原创 ClickHouse 安装部署

（1）把 :: 的注释打开，这样的话才能让 ClickHouse 被除本。修改/etc/selinux/config 中的。在node02、node03上执行相同操作。-m :可以在命令窗口输入多行命令。（2） 3台节点都要做相同的修改。修改完成之后，重启三台节点。

2024-05-04 15:10:43 616

原创大数据 ClickHouse 笔记二

普通视图不保存数据，保存的仅仅是查询语句，查询的时候还是从原表读取数据，可以将普通视图理解为是个子查询。物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中，对数据重新进行了组织，你可以理解物化视图是完全的一张新表。

2023-09-02 13:37:50 450

原创大数据 ClickHouse 笔记一

列式储存的好处：➢对于列的聚合，计数，求和等统计操作原因优于行式存储。➢由于某一列的数据类型都是相同的，针对于数据存储更容易进行数据压缩，每一列选择更优的数据压缩算法，大大提高了数据的压缩比重。➢由于数据压缩比更好，一方面节省了磁盘空间，另一方面对于cache也有了更大的发挥空间。几乎覆盖了标准 SQL的大部分语法，包括DDL和DML，以及配套的各种函数，用户管理及权限管理，数据的备份与恢复。ClickHouse 和MySQL。

2023-09-01 21:24:00 562 1

Gavin31415926的博客