两万条数据需要做个数据图_微课程 | 第七课不同拆分规则的表视频图文稿

上一期我们介绍了复杂查询功能,这期我们继续讲解不同拆分规则的表。

032a440da505c4686058cb889beadc1a.png

现在我有四个节点,四个节点是按照求模拆分的,tb_mod 上有这样 5 条数据。这边 6 7 打个括号,意思是如果有 6 7 的话将会是这样一个数据分布。然后通过 jump hash 算法拆分后是这样的,1 2 3 分布在 dn2 上,4 6 分布在 dn1 上。这时我要做一个 tb_mod 和 jump_hash 的 JOIN,如果直接把 JOIN 下发是不对的。看图可以知道,这样只有 dn2 的 1 和 dn1 的 4 能关联上,2 3 都会被都丢掉,所以我们来看一下跨库 JOIN。跨库 JOIN

这里面我会有三个例子 INNER JOIN,LEFT JOIN 和 RIGHT JOIN。因为 jump_hash 里面的 id 和 code 都是一样的,所以我这里面写的是 id。

我们来执行一下,看到 1 2 3 4 数据都已经出来了。LEFT JOIN 结果也对的,大家对 LEFT JOIN 也比较熟悉,左边在的数据右边没有也会查出来,RIGHT JOIN 也是一样的。我们来看看是怎么做的,我们前面加一个EXPLAIN,这是我们分布式查询计划。

分布式查询计划

因为我这个终端为了清晰,放的有点大,稍微有点乱,我们把这个查询结果简化 select * 改为只需要的列,把横向长度稍微缩小点。不然看起来是有点点累。我们再加一个 \G ,把这个表横过来看一下。

我们可以先看到有 12 行,从头来看,首先我们关注的是前面几行。然后我们发现前四行的内容是一样的,唯一不同的就是 datanode。前四行其他列都是一样的,代表我的查询下发给这四个结点。然后四个节点结果回来以后,在我的中间件进行合并和排序。排序原因这个我们待会再解释。然后会有列的整合和筛选,对于当前这个例子来说其实这个步骤没有实际的工作在做,只是转发给下一步而已。

然后接下来是对第二张表 jump hash 的,SQL 下发到两个节点。然后这两个节点回来以后也会做一个合并。我们可以看到 dn2 后面还有序号,这是为了和前面 dn1 dn2 区别。然后 shuffle field,最后才会去做一个 JOIN,JOIN 就是把刚才 merge shuffle_field 的结果集做一个合并。第三个shuffle field,这里其实仍然是一个转发的过程。最终我才能得到一个JOIN之后的结果。通过这样一个执行计划我们才能去理解跨库 JOIN。这个例子 JOIN 是完全在 dble 中间件去做的,所以两个节点来说收集和排序,收集好数据以后做合并做 JOIN。

排序的实现

现在给大家说一下为什么刚才会有排序。理论上我不做排序,我去各个数据节点上把数据拿回来。在中间件做 JOIN,其实是用我左边的每一行数据去匹配右表的每一行数据,也就是做个笛卡尔积。如果我在中间件中各个节点做了排序,大家可以想象。比如我们刚才例子一个表是 12345,另一个是 12346,做 JOIN 时候,如果我是一个有序的,他是不需要笛卡尔积的。它只要比较队头部就可以了,队头的意思就是第一列比较。这 1 和 1 比较,匹配上了,接下来 1 和 2 比较,发现匹配不上。由于表数据是有序的,所以一旦匹配不上以后就再也匹配不上了,所以左边的 1 也就出局了。

所以我们通过这样一个优化,我们可以把时间复杂度。在中间件的时间复杂度从笛卡尔积做到两个表的数据行数和乘以 2,这样的复杂度会比笛卡尔积小很多。当然相应带来的消耗就是 MySQL 的消耗。原来不需要排序,现在需要排序了。对我们来说可能认为中间件尽量做少的计算,把计算下发到 MySQL 上,是一个比较有效的一个做法,这是我们展示的不同拆分规则的表。

好,我们今天先介绍到这里。

图文稿为了方便阅读,在不影响学习的情况下优化了一些口语化词汇,文稿与视频会尽量保持一致。
DBLE 及相关项目代码地址:

https://github.com/actiontech/dble

https://github.com/actiontech/dble-docs-cn

https://github.com/actiontech/dble-test-suite

课程咨询:
  • 「爱可生开源社区」微信公众号:ActiontechOSS       72653cc767505b98b62e39734f526d95.png 

  • 「爱可生开源社区」官方技术交流群(669663113)        f4e2c10d83daf053180755fd1432a7fc.png 

以下是对提供的参考资料的总结,按照要求结构化多个要点分输出: 4G/5G无线网络优化与网规案例分析: NSA站点下终端掉4G问题:部分用户反馈NSA终端频繁掉4G,主要因终端主动发起SCGfail导致。分析显示,在信号较好的环境下,终端可能因节能、过热保护等原因主动释放连接。解决方案建议终端侧进分析处理,尝试关闭节电开关等。 RSSI算法识别天馈遮挡:通过计算RSSI平均值及差值识别天馈遮挡,差值大于3dB则认定有遮挡。不同设备分组规则不同,如64T和32T。此方法可有效帮助现场人员识别因环境变化引起的网络问题。 5G 160M组网小区CA不生效:某5G站点开启100M+60M CA功能后,测试发现UE无法正常使用CA功能。问题原因在于CA频点集标识配置错误,修正后测试正常。 5G网络优化与策略: CCE映射方式优化:针对诺基亚站点覆盖农村区域,通过优化CCE资源映射方式(交织、非交织),提升RRC连接建立成功率和无线接通率。非交织方式相比交织方式有显著提升。 5G AAU两扇区组网:与三扇区组网相比,AAU两扇区组网在RSRP、SINR、下载速率和上传速率上不同,需根据具体场景选择适合的组网方式。 5G语音解决方案:包括沿用4G语音解决方案、EPS Fallback方案和VoNR方案。不同方案适用于不同的5G组网策略,如NSA和SA,并影响语音连续性和网络覆盖。 4G网络优化与资源利用: 4G室分设备利旧:面对4G网络投资压减与资源需求矛盾,提出利旧多维度调优策略,包括资源整合、统筹调配既有资源,以满足新增需求和提质增效。 宏站RRU设备1托N射灯:针对5G深度覆盖需求,研究使用宏站AAU结合1托N射灯方案,快速便捷地开通5G站点,提升深度覆盖能力。 基站与流程管理: 爱立信LTE基站邻区添加流程:未提供具体内容,但通常涉及邻区规划、参数配置、测试验证等步骤,以确保基站间顺畅切换和覆盖连续性。 网络规划与策略: 新高铁跨海大桥覆盖方案试点:虽未提供详细内容,但可推测涉及高铁跨海大桥区域的4G/5G网络覆盖规划,需考虑信号穿透、移动性管理、网络容量等因素。 总结: 提供的参考资料涵盖了4G/5G无线网络优化、网规案例分析、网络优化策略、资源利用、基站管理等多个方面。 通过具体案例分析,展示了无线网络优化中的常见问题及解决方案,如NSA终端掉4G、RSSI识别天馈遮挡、CA不生效等。 强调了5G网络优化与策略的重要性,包括CCE映射方式优化、5G语音解决方案、AAU扇区组网选择等。 提出了4G网络优化与资源利用的策略,如室分设备利旧、宏站RRU设备1托N射灯等。 基站与流程管理方面,提到了爱立信LTE基站邻区添加流程,但未给出具体细节。 新高铁跨海大桥覆盖方案试点展示了特殊场景下的网络规划需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值