【数据蒋堂】第32期:JOIN简化 – 意义总结

蒋步星《JOIN运算的简化与提速》系列技术文章。 【数据蒋堂】第29期:JOIN运算剖析 【数据蒋堂】第30期:JOIN简化 – 消除关联 【数据蒋堂】第31期:JOIN简化 – 维度对齐 更多敬请期待….. 我们重新审视和定义了等值JOIN运算,并简化了语法。一个直接的...

2018-02-02 14:55:41

阅读数:44

评论数:0

【数据蒋堂】第33期:JOIN提速 – 外键指针化

我们再来看重新定义JOIN后如何能够提高运算性能,先看外键式JOIN的情况。 设有两个表: products商品信息表id        商品编号name  商品名称price   单价…sales商品销售记录seq            序号date          日期product...

2018-02-02 14:54:52

阅读数:49

评论数:0

【数据蒋堂】第34期:JOIN提速 – 外键指针的衍生

我们继续讨论外键JOIN,并延用 上一篇 的例子。 当数据量大到无法全部放进内存时,前述的指针化方法就不再有效了,因为在外存无法保存事先算好的指针。 一般来讲,外键指向的维表容量较小,而不断增长的事实表要大得多。如果内存还能把维表放下的话,我们可以采用临时指向的方法来处理外键。 ...

2018-02-02 14:53:57

阅读数:51

评论数:0

【数据蒋堂】第35期:JOIN提速 – 有序归并

我们再来看同维表和主子表的JOIN,这两种情况的优化提速手段是一样的。 设两个关联表的规模(记录数)分别是N和M,则HASH分段技术的计算复杂度(关联字段的比较次数)大概是SUM(Ni*Mi),其中Ni和Mi分别是HASH值为i的两表记录数,满足N=SUM(Ni)和M=SUM(Mi),这大概...

2018-02-02 14:52:40

阅读数:63

评论数:0

【数据蒋堂】第36期:JOIN延伸:维度概念

【数据蒋堂】第36期:JOIN延伸:维度概念 谈到数据分析时常常会用到维度这个词,针对数据立方体的钻取、旋转、切片等操作都是围绕维度进行的,几乎所有的数据分析人员都知道并会运用这个术语,但要问及它的定义,却几乎没有人能给出来。 通俗来讲,我们把用来分类的属性(字段)称为...

2018-02-02 14:51:41

阅读数:67

评论数:0

【数据蒋堂】第37期:JOIN延伸 – 维度查询语法

有了维度定义后,我们就可以来梳理前面讲过的简化JOIN语法了。 先定义字段维度: 维度字段的维度为其本身;外键字段的维度为相应外键表中关联字段的维度;测度字段没有维度; 这是个递归定义。   然后再严格定义同维表和主子表: 同维表:两个表的主键字段维度集合对应相...

2018-02-02 14:49:20

阅读数:73

评论数:0

【数据蒋堂】第38期:JOIN延伸 – 维度其它应用

明确维度定义后,还可以换一种更清晰的方式来审视数据库的结构。 这是我们常见的E-R图: E-R图是个网状结构,实体(表)之间的外键关系直接画在图上,当实体较多时这个图就会显得非常零乱,关联线很随意,任何两个实体之间都有可能发生关联,表现出来的数据结构耦合度很高。在增加删除实体时...

2018-02-02 14:34:17

阅读数:77

评论数:0

【数据蒋堂】第39期:数据分段讨论

现代计算机一般都有多CPU核,而日益广泛应用的固态硬盘也有较强的并发能力,这些硬件资源都为并行计算提供了有力的保证。不过,要实现并行计算还需要有较好的数据分段技术,也就是能方便地把待计算的数据拆分成若干部分,让每个线程(或进程,这里以多线程为例讨论,多进程情况是类似的)分别处理。   ...

2018-02-02 14:32:18

阅读数:65

评论数:0

【数据蒋堂】第40期:倍增分段技术

区块分段方案能够满足我们设定的4个目标。不过,除了处理区块标记的麻烦外,这个办法对于列存也不是非常适合。 数据按列分别存储后,分段时必须保证各列同步,即各列的分段点对应的是同一条记录的列,否则就会出错数据错位。而各个列的宽度是不同的,同样大小的区块在存储不同列的值时,能装下的个数是不同的,继...

2018-02-02 14:30:21

阅读数:59

评论数:0

趣味集算:两行搞定GREP搜索

What?两行代码搞定GREP搜索?如果不是经常使用Linux,估计你看到这个标题后会一脸不屑加满脸狐疑: GREP搜索是个什么鬼?又一个搜索引擎问世?比百度牛x吗?楼主你过来讲讲,你是如何只用两行代码就搞定搜索的。我给你一个关键字,你能还我一堆URL? 误会误会,你就是给我十个关键字,我也...

2018-02-02 14:28:49

阅读数:54

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭