查询大小估算

HGGshiwo

于 2021-07-01 20:29:30 发布

阅读量116

点赞数

分类专栏：数据库文章标签： SQL查询数据库性能连接操作日期范围规模估算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HGGshiwo/article/details/118396239

版权

数据库专栏收录该内容

11 篇文章 0 订阅

订阅专栏

For the relational schemas of the campus card database given in problem 1, there are following assumptions:

ncard=10,000 , npos=100, ndetail=10,000,000

lcard=25, lpos=22, ldetail=29

V(campus, pos) = 6, V(location, pos) = 20

V(depart, card) = 100, V(name, card) = 5000

The value of attribute cdate in detail table is uniformly distributed between ‘2017-01-01’ and ‘2017-12-31’.

block size is 4K bytes.

size of B±tree pointer is 4 bytes.

card and detail tables are stored as sequential files based on search key cno.

there is a B±tree index on detail(cno).

(1) Estimate the size (i.e. number of records) returned by following SQL statement :

select d1.cno, d2.cno

from detail d1, detail d2

where d1.pno=d2.pno

and d1.cdate=d2.cdate

and d1.cdate between ‘2017-05-01’ and “2017-07-31’

首先，detail被pno给连接了起来。pno是pos的主码，很容易得知，pno一共100个不同的值。

而detail一共10,000,000条记录。也就是说，一条pno对应了10,000,000/100条detail

也就是说，1条pno两侧分别有100,000条detail，它们笛卡尔积的大小就是(100,000)^2，

既然有100条pno，那么它们的大小为100*100,000^2。

由此，可以得到一个公式(由于我的概率论不太好，只能用这种方式算概率)，假如一个集合大小为n, 一个集合大小为m，连接它们的属性一共k个，那么一个属性分别对应n/k, m/k个属性，结果为n*m/k个，概率为1/k。

简而言之，概率就是连接它们的属性个数倒数。

对于and连接的条件，概率相乘，第一次连接，概率为1/100.

由于一年有365天，因此第二个连接属性的大小为365

最后一个条件不涉及连接，更加简单，就是3/12

结果就是：(10,000,000)*(10,000,000)/(100*365)*3/12

这个算法需不需要m=k或者n=k呢？好像不需要。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

HGGshiwo CSDN认证博客专家 CSDN认证企业博客

码龄5年

296: 原创

17万+: 周排名

1万+: 总排名

67万+: 访问

: 等级

5521: 积分

460: 粉丝

579: 获赞

137: 评论

2268: 收藏

私信

关注

热门文章

分类专栏

最新评论

强化学习中，值迭代(value iteration)和策略迭代(policy iteration)，Truncated policy iteration区别的理解
zha_yo: 中国的前一般指上一个，西方的前一般指下一个，这里应该是中西方对前后概念相反的差异导致的疑问。
DDPM对于噪声的理解
xiehbpku: 扩散过程中因为噪声epsilon是随机的，所以xt是随机变量，这个过程通过重采样技巧，你得到了训练样本(x0,epsilon,xt)，这些都是常量，用来训练unet， xt的本质不过是x0和噪声的线性插值；去噪过程给定噪声样本xt，使用unet计算去噪值，注意这是对真实epislon的一个估计值（因为网络参数是在均方误差下估计的），进而根据x0与xt的插值关系得到x0的估计值，这个估计值由于跳过了很多步因此variance是很大的，尤其当xt噪声污染度越高（即步越大）时x0估计值的variance就越大，所以论文中给出的预测过程就是一个渐进性估计x0：在第t步得到epsilon估计值后进而公式计算x0的估计值，然后根据x0估计值和xt，进而公式计算xt-1的均值的估计值，xt-1的方差是常数不用估计，这里就可以采样得到xt-1了（多样性生成），然后用依此迭代。逆向过程中当t很大时，是不可能恢复出原始图像的，即使在渐进性去噪过程不进行随机采样。
VAE论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
RISC-V模拟器 Rimulator
干锅土鸡: 开源吗
6-1 Numerical Summation of a Series (40分)
programmecantrun: 想问一下第二条公式（第一个长公式）一个Σ拆分成两个Σ是怎么做到的呀

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。