导言 Profile
HENGSHI SENSE 是可私有部署的一站式分析云,作为中心化的企业级数据工作站, 通过先进的云原生架构灵活适配企业多源异构的数据环境,管理业务指标模型, 快速生成业务场景应用,帮助企业组织落地数据驱动文化。HENGSHI SENSE 覆盖了主流数据源,适配 MongoDB、Elastic、TiDB、ClickHouse、GreenPlum等新型数据源,并且运用完善的运算符下推技术,充分发挥数据源计算能力。HENGSHI SENSE 可以非常方便的接入 Vertica 数据源,充分发挥 Vertica 的高并发计算优势,提供丰富而高效的数据分析场景。
Vertica 特性
Vertica是一款基于列存储的MPP(massively parallel processing)架构的数据库,它可以支持存放多至PB(Petabyte)级别的结构化数据。Vertica是由关系数据库大师Michael Stonebraker(2014 年图灵奖获得者)所创建,于2011年被惠普收购并成为其核心大数据平台软件。
无共享MPP
Vertica 采用无共享的 MPP 架构,所有节点均可访问使用,也提供了负载均衡来保障节点的合理使用。Vertica 集群中的所有节点 100%对等,集群中没有主节点或其他共享资源。通过增加节点,就可以线性地扩展集群的计算能力、并发能力和数据处理容量。
列式存储
Vertica 的优化器和执行引擎可以忽略表中与查询无关的列,她的执行引擎和优化器也是基于列式数据库设计的,压缩过的列数据在 Vertica 的执行引擎中进行过滤、关联、分组等操作时不需要解压缩,从而大大降低了 CPU 和内存消耗。
高可用
Vertica 使用类似 RAID 的功能为数据库提供高可用性。在保持对前端应用透明的前提下,把数据在集群中的所有节点进行均匀分布的同时,还在多个节点上对同一份数据维护了多个拷贝,确保任意一个或几个节点出现故障或进入维修状态都不会影响集群的健康状态。
海量并行处理
Vertica 天生的数据多版本存储管理能力使得查询不会对数据加锁,完全对等的所有集群节点上都可以多线程并行地执行查询、数据装载、数据导出、数据处理和备份恢复等各种任务任务,节点越多,处理能力就越强,单个任务资源消耗和时间开销就越少,并发能力也越高。
HENGSHI SENSE 连接 Vertica
HENGSHI SENSE 通过 JDBC 连接 Vertica,默认的驱动是 vertica-jdbc 10.0.1。在【数据连接】菜单下,点击【新建数据连接】,选择 Vertica,会出现新建数据连接界面。如下图所示,用户只需要简单的配置连接属性,就可以实现数据源的接入。
-
名称:该数据连接在 HENGSHI SENSE 中的标志。
-
机器地址:Vertica 数据库的地址,可以是 IP、DNS、动态的用户属性。
-
端口:Vertica 数据库的端口号,可以是数字类型的端口号或者动态用户属性。
-
用户名:连接 Vertica 数据库的用户名,可以是文本类型的用户名或者动态用户属性。
-
密码:连接 Vertica 数据库的用户所对应的密码,可以是文本类型的密码或者动态用户属性。该密码采用加密保护,除了数据连接的创建者,其他人都看不到。
-
数据库:Vertica 数据库的名字,可以是文本类型的数据库名或者动态用户属性。
-
模式:默认的 schema 名,可以为空、文本类型的 schema 名或者动态用户属性。
-
最大连接数:默认为 10, HENGSHI SENSE 连接 Vertica 的最大连接数,需要根据数据库的业务压力而定。
-
编码:默认是 UTF-8,可选值为 UTF-8, GBK, Big5, EUC_CN, Cp1252, UnicodeBig。
-
数据网关:HENGSHI SENSE 支持分析服务和数据库隔离的场景,通过配置数据网关,可以打通从分析服务所在网段到数据所在网段的通信。
另外,HENGSHI SENSE 也支持用复杂的 Kerberos 认证方式连接 Vertica。下图是选用 Kerberos 认证方式时的额外配置:
-
hadoop 认证方式:选择 kerberos。
-
realmA:kerberos 服务设置的realm信息,例:BIGDATA.COM。
-
kdcA:kerberos 认证服务IP地址信息,例:10.10.10.130。
-
realmB:(选填)kerberos服务设置的realm信息(注:keberos 服务可以存在多个realm信息) 。
-
kdcB:(选填)kerberos 认证服务IP地址信息。
-
server principal:认证主体,可以理解为vertica数据库在kerberos服务中对应的用户名称 例:vertica/nodea@BIGDATA.COM。
HENGSHI SENSE
支持的 Vertica 分析场景
HENGSHI SENSE 在分析场景上对 Vertica 进行了深度的适配,用户可以通过简单的界面操作实现简单的聚合分析场景、复杂的同环比、留存、活跃等分析场景。还可以通过自定义指标的方式,进行更多灵活的分析,比如各种数学统计函数、不同窗口下的聚合分析。
简单的聚合分析
如上图所示,从 HENGSHI SENSE 的图表编辑界面,可以对度量做各种聚合分析,比如求和、平均值、最小值、最大值、计数、去重。
高级计算
如上图所示,从 HENGSHI SENSE 的图表编辑界面,还可以实现高级计算。比如百分比、同环比、留存、新客留存、老客留存、活跃、重复率、重复数等。基于大数据量,实现这些复杂的运算,是数据分析员的一大痛点。HENGSHI SENGSE 充分调研了 Vertica 的特性,实现了高效的计算算法,让分析人员可以通过简单的配置完成这些复杂的运算。
自定义的分析
用户可以在 HENGSHI SENSE 中新建指标,实现更加灵活的分析。用户可以在指标中新建聚合指标、不同窗口下的聚合指标、各种数据统计指标等。HENGSHI SENSE 支持丰富的数学统计函数。
结语
Vertica 的设计者多次表示他们的产品围绕高性能和高可用设计。Vertica 将为下一代业务智能提供实时分析,可用于网站流量分析、零售销售的趋势分析或者药物研究。HENGSHI SENSE 支持 Vertica 做为 BI 分析的数据源,用户不需要依赖特殊的数据仓库,就可以实现复杂分析场景的原地计算。用户利用 HENGSHI SENSE 的分析能力和 Vertica 的计算能力,让数据发挥更大的作用。