1.B树和B+树的区别
B树
每个节点都存储key和data,所有节点组成这棵树,并且叶子节点指针为null
B+树
只有叶子节点存储data,叶子节点包含了这棵树的所有键值,叶子节点不存储指针。
2.为什么数据会存在B+树的叶子节点
降低数的高度,减少层级,减少回表次数,有利于范围查询以及数据的查询加载效率,
3.说说InnoDB是什么样的
data存的是数据本身,索引也是数据,数据和索引存在一个xxx,idb文件中,所以也叫聚集索引。
4.B+树中单链表和数组的区别
使用单链表的优点:
1.)当我们在使用范围查找的时候,只要找到能边界值就可以通过指针去查找其他所需要的数据就不用再从根节点开始遍历,减少了所有消耗的时间,增加了效率
2.)因为表的主键id是自增的。
3.)对所有叶子节点通过指针双向链接,方便的提供了遍历所有数据的特性,同时数据也是严格有序的,方便范围查询,查询效率的稳定性也非常好
数组的优点:
1.)查找数组中的某一目标值时,速度会很快
5.join的过程中MapReduce中的如何实现的
1.map阶段
读取表的数据,Map输出的时候以Join on条件中的列为key,如果join有多个关联键,则以这些关联键的组合作为key;
Map输出的value为join之后需要输出或者作为条件的列;同时在value中还会包含表的Tag信息,用于标明此value对应的表,按照key进行排序。
2.shuffle阶段
根据key取哈希值,并将key/value按照哈希值分发到不同的reduce中。
3.reduce阶段
根据key完成join操作,并且通过Tag来识别不同表中的数据。在合并过程中,把表扔掉。