数据存储：关系型数据管理系统2

最新推荐文章于 2021-11-10 17:50:52 发布

bakalaka

最新推荐文章于 2021-11-10 17:50:52 发布

阅读量915

点赞数

分类专栏：大数据系统与大规模数据分析课程

大数据系统与大规模数据分析课程专栏收录该内容

16 篇文章 3 订阅

订阅专栏

本文转载自：http://www.cnblogs.com/gardenofsjw/p/6917599.html

关系型数据管理系统2：数据库系统与数据存储访问

目录

一、数据库系统架构

二、数据存储与访问

1.数据库与文件系统对比总结

2.存储单位

2.1 硬盘

2.2 文件系统

2.3 RDSBM

3.访问策略

3.1 顺序访问

3.2 Indexing

3.3 Buffer Pool

3.4 join运算三种Query Plan

（本文是中科院陈世敏老师课程学习笔记）

--------------------------------------------

一、数据库系统架构

DBMS-Database Management System 数据库管理系统

RDBSM -关系型数据库系统

主流商用系统：Oracle 、Microsoft SQL、IBM DB2

开源：PostgreSQL、MySQL、sqlite

Parser:语法解析、语法检查、表名、列名、类型检查

Optimizer：产生可行query plan -> 估计运行时间和空间代价 -> 选择最佳query plan；

优化内容包括访问方式、实现的算法、多个连接的次序等等

Execution Engine：根据query plan -> SQL语句完成运算和操作

Buffer pool：内存中缓存

Data Storage and Indexing:数据存储策略与高效访问策略

Transaction management：事务管理，保证ACID，进行logging、locking保证事务之间的正确性

ACID：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）

二、数据存储与访问

1.先一张wondeful的对比总结：

可以看出数据库的接口应该是在文件系统提供的基本编程接口上实现的

2.存储单位

2.1硬盘：扇区 512B

2.2文件系统：4KB

2.3RDSMS：database page size 4KB，8KB，16KB...(文件系统的整数倍)，一个Page占一段一维的地址空间

slot用指针记录着每个记录，之所以这么做是因为每个记录都是不定长的，不能用size*第n页+起始->推出每条记录的首地址。

记录前面存储定长，后面存储变长，len=定长+变长

三.访问策略

3.1顺序访问

select Name,GPA from Student where Major='计算机';

顺序读取student每个page

对每个page顺序访问每个tuple

检查条件是否成立

对于成立的读取Name和GPA

这对一些情况来说效率会很低，经常要把所有数据遍历一遍。

3.2 Index建立索引

Tree based:有序，支持点查询和范围查询

Hash based:无序，只支持点查询

3.2.1 Hash Indexing

bucket = page

当链过长时候需要进行renew hash

3.2.2B+ Tree Indexing

3.2.2.1 结构

内部节点：

叶子节点：

key1<key2<key3...

subtree0<key1≤sbtree1<key1... ptr=recordID,sibling=page ID（是为了连接叶节点，和存储数据的page不一样）

大体流程：查询某个键值-> 进入为该键建立的索引B+树->内部节点->叶子节点（可包含多个值)->找到键值对应的指针,得到page Id和In- page tuple slot ID->page管理结构->page header->page slot->tuple，获取记录信息

3.2.2.2 四种操作

(1)Search

共有N个Key，树高O(log_BN) = 总I/O数

每个节点内部二分查找O（log₂B）总比较次数=O（log₂B）*O(log_BN) =O(log₂N)

eg.search 20

(2)Insert

注意：在插入满格需要分裂时候，要向上一级呈递自己最小key,且内部节点不再保留该key，叶子节点需要保留。

(3)Delete

search到之后delete,删除后节点为空，进行node merge操作,或者完全不进行merge.

(4)Range Scan

先由内部节点找到起始叶节点，通过child sibling pointer沿着叶往下读，一直到范围终止。

3.3 Buffer Pool

-目的

减少I/O，提高性能

-原理

（1）Temporal Locality 时间局部性

同一数据可能在一段时间内被访问多次

（2）Spatial Locality 空间局部性

位置相同的数据可能会被在一起访问

-访问过程

检查page 是否在buffer pool中

（1）hit:找到，直接访问

（2）miss：在buffer中找到一个可用的frame ，从硬盘中读取，放入frame

-替换策略

buffer满了，需要替换frame

（1）random 随机替换

（2） FIFO 先进先出

（3）LRU 最近最少使用

-LRU详解

用次数作为标记，按次数排成链表，需要替换时候标记数最小首当其冲，代价O（1）

-clock算法

LRU队列遇到多线程共享队头，等待临界区浪费很多时间。所以把一个共享变量，变成一圈。

开始，frame空白，R为空

frame读入数据，R=1

R全为1，所有frame都有数据了

顺时针转圈，没访问的修改R=0，中间被访问了R会被设置为1

再来一圈，R=0的，上一圈没被访问过，选为victim被替换

3.4 join运算实现详解

-join的三种实现思路

（1）loop

两层循环，时间代价二次，两个改进版本

（2） hash

比内存大的时候进行hash分块，,代价线性，读2MR+2MS

（3）sorting

通常是两边数据都是排好序的才这么用。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据存储：关系型数据管理系统2

本文转载自：http://www.cnblogs.com/gardenofsjw/p/6917599.html关系型数据管理系统2：数据库系统与数据存储访问目录一、数据库系统架构二、数据存储与访问1.数据库与文件系统对比总结2.存储单位 2.1 硬盘 2.2 文件系统 2.3 RDSBM3.访问策略 3.1 顺序访问 3.2 Indexing 3.3 Buffer Pool 3.4 ...
复制链接

扫一扫

专栏目录

bakalaka CSDN认证博客专家 CSDN认证企业博客

码龄7年

0: 原创

9万+: 周排名

133万+: 总排名

19万+: 访问

: 等级

1633: 积分

121: 粉丝

94: 获赞

21: 评论

662: 收藏

私信

关注

热门文章

分类专栏

最新评论

自适应滤波器：LMS算法、归一化LMS滤波器
weixin_57277491: M 應該就是指 filter order 吧？
自适应滤波器：LMS算法、归一化LMS滤波器
weixin_57277491: 你好，可以請教如何調整filter order 嗎？
自适应滤波器：递归最小二乘（RLS）
小陈IT: % [s, fs, bits] = wavread('myspeech.wav'); [s,fs] = audioread('myspeech.wav');%读取音频文件,调用音频文件，采样值放在x中，fs为采样频率X=x(:,1);%取矩阵x的第一列赋值到x矩阵中 ainfo=audioinfo('myspeech.wav'); bits=ainfo.BitsPerSample; s=s-mean(s); s=s/max(abs(s)); N=length(s); time=(0:N-1)/fs; clean=s'; ref_noise=.1*randn(1,length(s)); mixed = clean+ref_noise; mu=0.05;M=2;espon=1e-4; % [en,wn,yn]=lmsFunc(mu,M,ref_noise,mixed); % [en,wn,yn]=nlmsFunc(mu,M,ref_noise,mixed,espon); delta = 1e-7; lambda = 1; [en,w]=rls(lambda,M,ref_noise,mixed,delta); function [e,w]=rls(lambda,M,u,d,delta) % recursive least squares,rls. % Call: % [e,w]=rls(lambda,M,u,d,delta) % % Input arguments: % lambda = constant, (0,1] % M = filter length, dim 1x1 % u = input signal, dim Nx1 % d = desired signal, dim Nx1 % delta = constant for initializaton, suggest 1e-7. % % Output arguments: % e = estimation error, dim Nx1 % w = final filter coefficients, dim
自适应滤波器：LMS算法、归一化LMS滤波器
pppomm: 你好，可以发一下完整代码吗？现在的画不出图
自适应滤波器：LMS算法、归一化LMS滤波器
flyingpigeightquit: 博主你好，滤除50hz的算法，会同时对比较宽的一个带宽都有较强衰减，比如200hz的信号也被衰减的很厉害，请问有什么可以分享的方法吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。