自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Scala 变量和数据类型

Scala是完全面向对象的语言,所以不存在基本数据类型的概念,有的只是任意值对象类型(AnyVal)和任意引用对象类型(AnyRef)变量的类型如果能够通过变量值推断出来,那么可以省略类型声明,这里的省略,并不是不声明,而是由Scala编译器在编译时自动声明编译的。“开头的标识符为保留的 Scala 编译器产生的标志符使用,应用程序应该避免使用”$"开始的标识符,以免造成冲突。在 Scala 中,字符串的类型实际上就是 Java中的 String类,它本身是没有 String 类的。

2024-05-11 01:13:17 629

原创 大数据实时数仓核心组件 Apache Flink 部署笔记

Flink的官网主页地址:https://flink.apache.org/Flink核心目标,是“数据流上的有状态计算”具体说明:Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。无界数据流:有定义流的开始,但没有定义流的结束;它们会无休止的产生数据;无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的。

2024-05-10 17:31:05 1185

原创 MySQL 触发器

MySQL从 5.0.2 版本开始支持触发器。MySQL的触发器和存储过程一样,都是嵌入到MySQL服务器的一段程序。触发器是由 事件来触发 某个操作,这些事件包括 INSERT 、 UPDATE 、 DELETE 事件。所谓事件就是指用户的动作或者触发某项行为。如果定义了触发程序,当数据库执行这些语句时候,就相当于事件发生了,就会 自动 激发触发器执行相应的操作。当对数据表中的数据执行插入、更新和删除操作,需要自动执行一些数据库逻辑时,可以使用触发器来实现。

2024-05-10 00:31:39 952 1

原创 大数据数据采集 Apache-Flume 笔记

​ -Dflume.root.logger=INFO,console :-D表示flume运行时动态修改flume.root.logger参数属性值,并将控制台日志打印级别设置为INFO级别。​ --conf-file/-f:flume本次启动读取的配置文件是在conf文件夹下的nc-flume-log.conf文件。将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。修改apache-flume-1.10.1-bin的名称为flume。

2024-05-08 23:55:03 953

原创 大数据 Phoenix 安装部署手册

解压到/opt/module 改名为phoenix。在phoenix目录下。

2024-05-08 00:14:45 140

原创 大数据调度apache-dolphinscheduler 安装部署手册

DolphinScheduler 支持多种部署模式,包括单机模式(Standalone)、伪集群模式(PseudoCluster)、集群模式(Cluster)等。

2024-05-08 00:03:12 1051

原创 大数据调度 Apache Airflow 安装部署

Airflow是基于Python的,就是Python中的一个包。安装要求Python3.6版本之上,Metadata DataBase支持PostgreSQL9.6+,MySQL5.7+,SQLLite3.15.0+。

2024-05-06 23:29:48 547

原创 Typora 使用总结 好用主题推荐

Typora 是一款由 Abner Lee 开发的[轻量级] Markdown 编辑器,与其他 Markdown 编辑器不同的是,Typora 没有采用[源代码]和预览双栏显示的方式,而是采用所见即所得的编辑方式

2024-05-06 20:28:51 304

原创 MySQL 经典练习题 50 道

【代码】MySQL 经典练习题 50 道。

2024-05-05 17:52:02 225

原创 Hadoop 大数据之 Mapreduce 笔记一

1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。3)为什么不用 Java 的序列化。

2024-05-05 15:38:00 745

原创 大数据Hive常用函数大全

大数据 hive 常用函数大全,持续更新中......

2024-05-05 00:45:02 1210

原创 大数据 Kafka 面试题总结

查看是否存在脏数据(zookeeper和kafka数据目录数据都要清理)。

2024-05-04 23:56:20 898 2

原创 大数据常用命令-Kafka

待 kafka 关闭完成后,按需关闭 Zookeeper 集群。先启动 Zookeeper 集群,然后启动 Kafka。–replication-factor 定义副本数。修改分区数(注意:分区数只能增加,不能减少)把主题中所有的数据都读取出来(包括历史数据)–partitions 定义分区数。查看当前服务器中的多有 topic。依次在各节点上启动 Kafka。依次在各节点上关闭 Kafka。–topic 定义topic名。查看操作生产者命令参数。查看操作消费者命令参数。查看操作主题命令参数。

2024-05-04 21:57:46 843 2

原创 Doris 安装部署

设置系统最大打开文件句柄数(注意这里的*不要去掉)设置最大虚拟块的大小重启生效。

2024-05-04 21:38:51 245

原创 ClickHouse 安装部署

(1)把 :: 的注释打开,这样的话才能让 ClickHouse 被除本。修改/etc/selinux/config 中的。在node02、node03上执行相同操作。-m :可以在命令窗口输入多行命令。(2) 3台节点都要做相同的修改。修改完成之后,重启三台节点。

2024-05-04 15:10:43 261

原创 大数据 ClickHouse 笔记二

普通视图不保存数据,保存的仅仅是查询语句,查询的时候还是从原表读取数据,可以将普通视图理解为是个子查询。物化视图则是把查询的结果根据相应的引擎存入到了磁盘或内存中,对数据重新进行了组织,你可以理解物化视图是完全的一张新表。

2023-09-02 13:37:50 178

原创 大数据 ClickHouse 笔记一

列式储存的好处:➢对于列的聚合,计数,求和等统计操作原因优于行式存储。➢由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列选择更优的数据压缩算法,大大提高了数据的压缩比重。➢由于数据压缩比更好,一方面节省了磁盘空间,另一方面对于cache也有了更大的发挥空间。几乎覆盖了标准 SQL的大部分语法,包括DDL和DML,以及配套的各种函数,用户管理及权限管理,数据的备份与恢复。ClickHouse 和MySQL。

2023-09-01 21:24:00 214

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除