SQL
文章平均质量分 82
SQL
Wzideng
记住一件事:
越努力越进步越自信
越懒惰越迷茫越焦虑越自卑。
业精于勤荒于嬉,行成于思毁于随。
展开
-
第07章 InnoDB数据存储结构
页a、页b、页c…页n这些页可以不在物理结构上相连,只要通过双向链表相关联即可。每个数据页中的记录会按照主键值从小到大的顺序组成一个单向链表,每个数据页都会为存储在它里边的记录生成一个页目录,在通过主键查找某条记录的时候可以在页目录中使用二分法快速定位到对应的槽,然后再遍历该槽对应的分组中的记录即可快速找到指定的记录。原创 2023-09-06 20:52:32 · 90 阅读 · 0 评论 -
HBase概述
结构化数据适合用二维表来展示的数据非结构化数据非结构化数据是数据结构不规则或不完整没有预定义的数据模型不方便用数据库二维逻辑表来表现办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等指数据库事务正确执行的四个基本要素的缩写原子性 A整个事务中的所有操作,要么全部完成,要么全部不完成,不可能停滞在中间某个环节。事务在执行过程中发生错误,会被回滚(Rollback)到事务开始前的状态,就像这个事务从来没有执行过一样。一致性 C。原创 2023-08-01 14:48:37 · 1264 阅读 · 0 评论 -
第1章 SparkSQL 概述
Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。SparkSQL是Apache Spark中的一个模块,用于处理结构化数据。它提供了一个用于处理关系型数据的高级接口,并允许在Spark中执行SQL查询、操作DataFrame和DataSet等数据结构。原创 2023-07-20 11:47:59 · 77 阅读 · 0 评论 -
### 4.1 Hadoop生态系统
Sqoop:数据交换框架,例如:关系型数据库与HDFS之间的数据交换。Hbase : 海量数据中的查询,相当于分布式文件系统中的数据库。Storm: 分布式的流式计算框架 python操作storm。Zookeeper:用户无感知,主节点挂掉选择从节点作为主的。Oozie:工作流引擎,管理作业执行顺序。Spark: 分布式的计算框架基于内存。Flink: 分布式的流式计算框架。囊括了大数据处理的方方面面。Mahout:机器学习库。Flume:日志收集框架。Kafka: 消息队列。原创 2023-06-28 19:48:47 · 379 阅读 · 0 评论