【Log Storage】SLS 技术分析

SLS 技术分析

日志分析技术流派演进

  1. 传统方式:日志存在本地硬盘,运维人员登录到跳板机,通过 pssh+grep 的脚本去分析日志;pssh(Parallel SSH)是一个命令行工具,对于批量操作非常有用,允许运维人员能够高效地对大量服务器执行相同的操作。
    1. 优点:简单有效,不依赖第三方数据采集和处理设施,适合快速定位线上问题;
    2. 缺点:单机磁盘有限,无法保证可靠存储;bash 脚本只能做简单处理,无法做复杂分析;Bash内置的工具(如grepawksed等)适用于简单的文本处理,但它们不支持复杂的数据分析算法;
  2. ElasticSearch:分区+多副本实现可靠的数据集中存储,倒排索引实现快速的关键词检索,有自身的 DSL 进行聚合分析;Elasticsearch 是建立在 Lucene 之上的,它将 Lucene 的功能进行了封装,并添加了分布式特性,如数据分片、副本管理、集群管理等。
    1. 优点:查询检索能力强,特别是各种模糊、短语查询等;
    2. 缺点:DSL 在分析场景下的表达能力和易用性不如标准 SQL;获取数据通过 REST API 的参数指定,如字段匹配、排序规则和查询范围。数据处理需要使用特定 Java 库;
  3. 大数据技术:如 Hive 和 Spark 等批处理引擎;百度也还是用这种方式;例如:Spark 能够动态地根据作业需求分配和回收资源,这使得它可以高效地处理不同规模的数据集;Spark 通过弹性分布式数据集(RDDs)的谱系图来跟踪数据的转换过程。如果一个节点失败,Spark 可以使用谱系图来恢复丢失的数据。
    1. 优点:可以非常大规模的数据分析,支持 SQL;
    2. 缺点:批处理引擎主要关注扩展性和容错,实时分析场景下较慢;批处理引擎的计算模型更适合批量处理而非实时处理。它们在处理完整个数据集之前不会返回结果,这对于需要即时响应的实时分析来说是不够的。批处理作业通常需要分配大量资源来完成,而这在资源有限的实时分析场景中可能会导致性能问题。
  4. ClickHouse:MPP 架构的 OLAP 引擎,以“快”为第一目标,定义好分配到各个节点的执行计划,全内存流水线操作,出错后快速失败,使用代码生成、向量化等技术去做加速;
    1. 优点:快;ClickHouse 专门为 OLAP 场景优化,使用了列式存储、全内存计算、执行计划优化等技术;代码生成技术用于优化查询的执行计划,特别是在处理复杂的表达式和函数时,通过将查询中的表达式转换成高效的机器代码,可以显著提高查询性能。
    2. 缺点:可扩展性和容错不足,不适合处理长周期任务,更适合交互式实时分析场景;为了发挥出MPP的速度优势,存储层面往往要结合列式存储(压缩比高,加速 IO )和额外的索引(快速定位);

ClickHouse 和 Spark 的设计&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Air浩瀚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值