学习笔记
文章平均质量分 87
网络工程小王
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大数据技术详解】——Kibana(学习笔记)
摘要:Kibana是Elasticsearch的可视化管理平台,提供数据探索、仪表板构建、日志分析等核心功能。主要模块包括Discover(日志查询)、Dashboard(可视化看板)、Visualize(图表创建)等。使用流程包括配置索引模式、数据探索、创建可视化组件和构建仪表板。高级功能支持KQL查询语言、低代码分析工具Lens、告警系统和数据源集成。典型应用场景涵盖运维监控、安全审计和业务分析,支持多种部署方式,是企业级数据分析的重要工具。原创 2026-03-22 09:02:55 · 343 阅读 · 0 评论 -
【大数据技术详解】——Elasticsearch技术(学习笔记)
Elasticsearch(ES)是一个基于Lucene的分布式搜索分析引擎,具有近实时处理能力。其核心概念包括节点、集群、索引、文档和分片,采用倒排索引技术实现高效检索。ES支持水平扩展、全文检索、聚合分析和RESTful API,适用于日志分析、电商搜索等场景。进阶功能涵盖向量搜索(8.x支持dense_vector字段和kNN搜索)、跨集群搜索、数据流管理及性能调优技巧(如批量写入、查询优化)。在AI领域,ES通过语义向量搜索实现智能推荐、图像检索等应用,成为构建AINative平台的关键组件。原创 2026-03-22 08:58:50 · 756 阅读 · 0 评论 -
【大数据技术详解】——Sqoop技术(学习笔记)
Sqoop是Apache开源的数据迁移工具,专为关系型数据库与Hadoop生态系统(HDFS/Hive/HBase)之间批量数据传输设计。其核心功能包括并行导入导出、增量同步、数据类型自动映射等,通过MapReduce实现高吞吐量传输。虽然Sqoop在传统Hadoop数仓建设中发挥重要作用,但随着技术发展,其局限性(如依赖MapReduce、分片限制)逐渐显现,正被Spark JDBC等新方案替代。文章详细解析了Sqoop的架构原理、核心命令、优化实践及替代方案比较,为大数据ETL工作提供技术参考。原创 2026-03-15 10:54:41 · 368 阅读 · 0 评论 -
【大数据技术详解】——Hive 离线数仓分层(学习笔记)
本文详细介绍了Hive离线数仓的分层规范及实现流程。数据仓库采用经典四层架构:ODS层存储原始数据,DWD层进行数据清洗和标准化,DWS层实现轻度汇总,ADS层生成业务指标。通过用户行为日志分析示例,展示了从原始JSON数据到最终报表的完整ETL流程,包括建表语句、数据转换逻辑和分区管理。文章还提供了数据导出到MySQL的方案(推荐使用Spark),并给出Airflow调度任务示例。最后强调分层设计的优势(解耦、性能优化、便于治理)及生产环境建议配合使用的工具链(Atlas、DataX等)。原创 2026-03-15 10:46:06 · 550 阅读 · 0 评论 -
【大数据技术详解】——离线批处理场景(学习笔记)
离线批处理流程概述 离线批处理是针对大规模数据的非实时处理模式,主要用于数据清洗、报表生成等场景。其核心流程包括:1)数据采集存储,使用Sqoop/Flume等工具将原始数据存入HDFS或Hive;2)任务调度,通过Airflow等工具管理任务依赖;3)数据处理,利用Spark等框架执行清洗、聚合等操作。Hive数据分层采用ODS(原始数据)、DWD(清洗层)、DWS(汇总层)、ADS(应用层)的四层架构,每层具有特定职能,实现数据质量与查询效率的平衡。最终处理结果写入目标存储并验证数据一致性原创 2026-03-08 10:42:27 · 383 阅读 · 0 评论 -
【大数据技术详解】——HIVE技术(学习笔记)
Hive是基于Hadoop的数据仓库工具,可将结构化数据文件映射为数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL语句转换为MapReduce任务运行,适合离线批处理场景。原创 2026-03-07 17:10:48 · 378 阅读 · 1 评论 -
【大数据技术详解】——HDFS技术(学习笔记)
HDFS是Hadoop的核心分布式文件系统,专为海量数据存储设计。其核心架构包括NameNode(元数据管理)、DataNode(数据存储)和SecondaryNameNode(辅助合并日志)。HDFS通过数据副本实现高容错性,适合顺序读写但不适合低延迟访问或小文件存储。常用命令包括文件上传下载(hdfs dfs -put/get)和查看(hdfs dfs -cat)。关键配置参数如副本数(dfs.replication)和块大小(dfs.blocksize)可通过hdfs-site.xml调整。原创 2026-03-07 09:48:09 · 541 阅读 · 0 评论
分享