YDB:实时在线分析(OLAP)系统:是我们自主研发的一个大型分布式索引系统。旨在为数据总量为万亿级别、每天千亿级别数据增量的项目提供近似实时的数据导入,并提供近似实时响应的多维查询与统计服务。
Ya100:大数据加速器:Spark SQL的一种新的存储格式。 Ya100比Parquet格式快5~100倍.任意维度组合,过滤,万亿数据秒级响应。Ya100内嵌ydb可以通过kafka进行数据的实时导入。
之前旧版,由于在写hive SQL的时候,需要添加三个set,导致很多支持HIVE的报表工具无法无缝集成(需要业务自己写插件)。
经过三个星期的spark源码的阅读,虽然还做不到完全的无缝,但终于可以取消这三个set,而只需写一个SQL来完成原先的功能。
这样用帆软的同学也不用再苦逼的写程序数据集了,直接写ydb的sql即可。
一、以帆软为例,看如何接入YDB
第一步:建立与ydb的连接,建立数据库连接