这个问题的答案包括两个方面:
从MySQL(或任何其他JDBC源)并行读取
从MySQL并行读取
为了并行读取MySQL,您需要发送多个不同的 query。 query的组合方式必须使其结果的并集与预期结果相等。例如,可以使用范围谓词在数值属性之间拆分 query:
Q1: SELECT * FROM sourceT WHERE num < 10;
Q2: SELECT * FROM sourceT WHERE num >= 10 AND num < 20;
Q3: SELECT * FROM sourceT WHERE num >= 20;
还有其他方法可以对 query进行分区。但是为了实际获得一些东西,DBMS必须能够比 query整个表的单个 query更有效地处理多个 query。所以通常,您需要确保对其进行分区的属性(上例中的num)被索引。不过,在单个数据库实例上执行多个 query会导致开销。因此,找到能够提供最佳性能的并行性并非易事。
定期从MySQL读取
与此平行 读取的作品相似。同样,您需要对 query进行分区。但现在您希望 root据描述记录时间的属性来执行此操作。因此,在每个间隔中,您需要询问自上一个间隔以来插入的行。同样,这将通过time属性上的范围谓词来完成。
Q at T1: SELECT * FROM sourceT WHERE rowtime < T1;
Q at T2: SELECT * FROM sourceT WHERE rowtime < T2;
与以前一样,只有在rowtime属性上为表编制索引时,这才有效。否则,您将执行完整的表扫描,并且随着插入更多数据, query将变得越来越慢。
以周期性间隔从MySQL并行读取
为此,您“只需”将这两种方法结合起来,并为每个 query添加两个谓词。实际上,您要做的是将表划分为析取部分,并随着时间的推移并行地读取它们。
然而,正如我之前指出的,精确的分区取决于您的数据和用例。此外,您需要创建适当的索引以避免全表扫描。另外请注意,使用上面的方法,您不会看到在读取行之后被修改的任何更新。