join 概述
INNER JOIN
内连接,也叫等值连接,inner join 产生同时符合 A 表和 B 表的一组数据。
LEFT JOIN
左连接从 A 表(左)产生一套完整的记录,与匹配的 B 表记录(右表) .如果没有匹配,右侧将包含 null,在 Mysql 中
等同于 left outer join。
RIGHT JOIN
左连接从 B 表(右)产生一套完整的记录,与匹配的 A 表记录(左表) .如果没有匹配,左侧将包含 null,在 Mysql 中
等同于 right outer join。
Cross join
交叉连接,得到的结果是两个表的乘积,即笛卡尔积。
Full join
全连接产生的所有记录(双方匹配记录)在表 A 和表 B。如果没有匹配,则对面将包含 null。
全局表
-
全局表的插入、更新操作会实时在所有节点上执行,保持各个分片的数据一致性
-
全局表的查询操作,只从一个节点获取
-
全局表可以跟任何一个表进行 JOIN 操作
ER Join
MyCAT 借鉴了 NewSQL 领域的新秀 Foundation DB 的设计思路,Foundation DB 创新性的提出了 Table
Group 的概念,其将子表的存储位置依赖于主表,并且物理上紧邻存放,因此彻底解决了 JION 的效率和性能问
题,根据这一思路,提出了基于 E-R 关系的数据分片策略,子表的记录与所关联的父表记录存放在同一个数据分
片上。
customer 采用 sharding-by-intfile 这个分片策略,分片在 dn1,dn2 上,orders 依赖父表进行分片,两个表
的关联关系为 orders.customer_id=customer.id。<table name="customer" dataNode="dn1,dn2" rule="sharding-by-intfile"> <childTable name="orders" joinKey="customer_id" parentKey="id"/> </table>
Share join
ShareJoin 是一个简单的跨分片 Join,基于 HBT 的方式实现。
目前支持 2 个表的 join,原理就是解析 SQL 语句,拆分成单表的 SQL 语句执行,然后把各个节点的数据汇集。<table name="A" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" /> <table name="B" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />
catlet
解决跨分片的 SQL JOIN 的问题,远比想象的复杂,而且往往无法实现高效的处理,既然如此,就依靠人工
的智力,去编程解决业务系统中特定几个必须跨分片的 SQL 的 JOIN 逻辑,MyCAT 提供特定的 API 供程序员调
用,这就是 MyCAT 创新性的思路——人工智能。Spark/Storm 对 join 扩展