前言
Aerospike是一个高度可扩展的键值数据库,可提供同类产品中最佳的性能。 它在实时业务环境中通常部署管理TB到PB数据量。
Aerospike通常与其他可扩展的分布式软件(例如,用于系统耦合的Kafka或用于分析的Spark)一起运行。 Aerospike提供的 Aerospike Connect 附件使集成变得很容易。
本文通过使用 aerospike-ansible 讨论了Aerospike Spark Connect在实际中的工作方式,并提供一个全面且易于复制的端到端示例。
一、数据库集群设置
首先看一下Ansible for Aerospike,它解释了如何使用 aerospike-ansible。
在此示例中,我在vars/cluster-config.yml
中将 cluster_instance_type
设置为 c5d.18xlarge。
按照说明进行操作,直到并包括一键式设置,最后我们会运行到
ansible-playbook aws-setup-plus-aerospike-install.yml
ansible-playbook aerospike-java-client-setup.yml
这会产生一个3个节点的群集,以及一个安装了相关软件的客户端实例。
Spark 集群设置
这是通过
ansible-playbook spark-cluster-setup.yml
对于此示例,在运行之前,我在 vars / cluster-config.yml
中将 spark_instance_type
设置为 c5d.4xlarge。
该腳本创建了一个3节点的给定实例类型的Spark集群,在其中已安装并运行了Spark,它还安装了Aerospike Spark Connect。
请注意,您需要设置 enterprise:true
,并通过 vars/cluster-config.yml
中的 feature_key:/your/path/to/key
提供有效的Aerospike功能密钥的路径。 因此,您必须是Aerospike的授权客户,或者必须正在Aerospike企业版试用期。
在过程即将结束时,您会看到
TASK [Spark master IP & master internal url] ************************************************************************************************************************************************************************
ok: [localhost] => {
"msg": "Spark master is 3.88.237.103. Spark master internal url is spark://10.0.2.122:70