日志采集:
流程 | 要做的事情 |
---|---|
日志规范 | 固定字段定义 日志格式 |
日志采集 | 落盘规则 滚动策略 采集方法 |
日志传输 | 消息队列 消费方式 Topic规范 保存时间 |
日志切分 | 采样 过滤 自定格式 |
日志检索 | 索引分割 分片设置 检索优化 权限设置 保存时间 |
日志流监控 | 采集异常 传输异常 检索异常 不合规范 监控报警 |
各种规范对应的传输要求:
为什么ELK的架构下要增加一个kafka?
1.袋鼠云,阿里云下的一个专门做日志的
2.斗鱼,使用kafka为了spark
3.饿了么,使用MQ为了做多活方案设计
4.新浪,为了spark做一些个性化的数据分析
5.华泰证券,为了做跨版本的升级,为了在日志里面集成metric,alert
6.阿里云,为了做实时数据和离线数据,日志聚合
7.苏宁,ES的river做kafka数据的清洗过滤
8.京东,前置应用索引创建策略,做流量均衡
9.网易,为了预估索引和分片
10.携程,做数据的parse,做failover之类的支持,做二进制压缩
11.B站,前置用于区分不同的日志,按照日志定级走不通的topic
12.百度,不知道这个kafka在里面干嘛,好像数据流的作用
对应的kafka集群
后续补充
topic名字
名字是根据logging_{项目名}