职位概述:
我们正在寻找一位熟悉ClickHouse和ELK的管理开发工程师,负责维护和管理我们的ClickHouse集群和ELK平台。作为日志平台管理开发工程师,您将负责确保ClickHouse集群,logstash, kafka集群,ES集群的高可用性、性能和安全性,可独立解决日志平台所有组件的故障和技术问题。
职责和职能:
- 部署、配置和维护ClickHouse集群和ELK平台,确保其高可用性和性能。包括但不限于集群规划、节点管理、数据分片、索引优化等。
- 监控日志平台的运行状态,及时发现并解决潜在问题。通过监控工具和自动化脚本,实时监测集群健康状况,提前预警并采取措施解决问题。
- 优化日志平台组件的性能,包括查询性能、数据加载性能和日志处理性能。通过调整配置参数、优化查询语句、增加硬件资源等手段,提高系统的吞吐量和响应速度。
- 设计和实施日志平台平台的备份和恢复策略,确保数据的安全性和可靠性。制定定期备份计划,并进行备份数据的验证和恢复测试,以确保备份的完整性和可用性。
- 进行数据压缩和性能优化,以提高存储效率和查询速度。通过使用压缩算法、分区和分片策略等技术手段,减少存储空间占用和提高数据读写效率。
- 与开发团队合作,解决与ClickHouse和ELK相关的问题,并提供技术支持。与开发人员密切合作,协助排查和解决生产环境中的问题,提供技术指导和建议。
- 跟踪ClickHouse和ELK的最新发展和技术趋势,提出改进和优化建议。关注行业动态,参与技术社区,不断学习和掌握新的技术和工具,为系统的稳定性和性能提供持续改进。
任职要求:
- 熟悉ClickHouse和ELK的架构和原理,具有相关的实际经验。了解ClickHouse的列式存储和分布式计算特点,熟悉ELK的日志收集、存储和可视化技术。
- 熟悉Linux操作系统和Shell脚本编程。熟悉Linux系统的基本操作和常用命令,能够编写Shell脚本进行自动化运维。
- 熟悉数据库管理和SQL语言。具备数据库管理和优化经验,熟悉SQL语言,能够编写高效的查询语句和优化数据库性能。
- 至少3年使用ClickHouse和ELK栈的工作经验。
- 熟悉SQL和数据库设计原则。
- 良好的编程能力,熟练使用至少一种编程语言(如Python, Java, go)。