本次新增与改动如下:
1,支持多个merger servrer
为了应对集群规模越来越大造成的单节点的merger server压力过大,可以通过 ydb.request.split: 4参数,随机选择一定数量的worker担任merger server.
2,ydb on spark支持多集群
ydb on spark可以支持同一个表,跨多个ydb集群查询,用以应对单个ydb集群在集群规模达百台规模以后hdfs与zookeeper等系统响应变慢等因素,通过这种方式ydb可以支持线性扩展到数千台集群规模,额不用担心到达这个规模后zookeeper,namenode的问题。
3.完善ydb on spark是使用用例
SparkExampleBasic 为ydb on spark基本使用用例
SparkExampleJoin 为ydb on spark中的高性能的join使用用例
4.添加参数,可以配置当有部分worker失效依然可以查询
允许部分对数据准确性不敏感的业务使用。可以通过ydb.topoplgy.worker.allowfail.count来配置,在某一时间允许出现多少个worker宕机后依然可以查询ydb.
5.重构核心代码,提升计算性能。
6.通过文件导入数据不在要求用户来控制数据粒度,不在要求用户保持均衡,而是自动进行文件切分,保证多个节点之间的数据均衡。
新的json导入接口为