一文了解大数据生态

置顶程序员白总

已于 2024-02-21 21:56:33 修改

阅读量635

点赞数 12

分类专栏： flink 大数据文章标签：大数据学习分布式系统分布式

于 2024-02-21 21:48:10 首次发布

本文链接：https://blog.csdn.net/qq_24831889/article/details/136221254

版权

8 篇文章

订阅专栏

1 篇文章

订阅专栏

大数据一词最早指的是传统数据处理应用软件无法处理的过于庞大或过于复杂的数据集。

现在，对“大数据”一词的使用倾向于使用预测分析、用户行为分析或者其他一些从大数据中提取价值的高级数据分析方法，很少用于表示特定规模的数据集。

大数据是指规模巨大、种类繁多、产生速度快的数据集合，通常超出了传统数据处理软件工具的处理能力范围。

大数据的特点主要可以归纳为以下几个方面：

在这里插入图片描述

日志数据采集：
- Apache Flume：支持的场景更多（半结构化和非结构化数据采集）
- Logstash：ELK 场景推荐使用 Logstash，可以和 Elastic、Kibana 无缝集成
- Filebeat：性能更高
关系型数据库数据采集：Sqoop、DataX、Canal、Maxwell、Debezium、FlinkCDC