知识分享小能手-CSDN博客

原创 Hadoop学习教程，从入门到精通，Elasticsearch 完整知识点详解(16）

Elasticsearch是基于Lucene的分布式全文搜索引擎，具备高可用、近实时搜索等特点。核心概念包括索引（类似数据库表）、文档（JSON数据单元）以及分片与副本机制（提升性能与容错）。在7.x版本后类型(Type)被废弃，8.x完全移除。集群包含多种节点角色：Master管理集群、Data存储数据、Coordinating协调请求等。通过RESTful API操作数据，支持自定义路由优化查询性能。典型应用场景包括电商搜索、日志分析(ELK)等。

2026-06-24 13:42:07 33

原创 Hadoop学习教程，从入门到精通，Apache Flink 全面知识点详解(15）

Apache Flink 是一个分布式流处理框架，支持有状态计算和无界/有界数据流处理。核心特点包括分布式执行、毫秒级低延迟、高吞吐量、Exactly-Once 语义保证，以及支持事件时间、处理时间和摄入时间三种时间语义。

2026-06-22 08:52:06 203

原创 Hadoop学习教程，从入门到精通， Spark 完整知识点详解(14）

Apache Spark是一个快速、通用的大数据分析引擎，核心特点包括内存计算(比MapReduce快10-100倍)、多语言支持和一站式解决方案(SQL/流处理/机器学习/图计算)。Spark架构包含Driver程序(主控节点)、Cluster Manager(资源调度)和Worker节点(执行器Executor)。与MapReduce相比，Spark通过内存计算和DAG优化显著提升性能。

2026-06-21 11:39:34 259

原创 Hadoop学习教程，从入门到精通， Scala语言 — 完整知识点详解(13）

Scala是一门多范式编程语言，结合了面向对象和函数式编程特性。它运行在JVM上，与Java完全兼容，具有静态类型系统和强大的类型推断能力。安装Scala需先安装JDK8+，Windows下通过.msi安装并配置环境变量，CentOS下可使用RPM或压缩包安装。验证安装使用scala -version命令。

2026-06-20 09:47:30 331

原创 Hadoop学习教程，从入门到精通，Azkaban工作流管理器 — 知识点详解与案例代码(12）

Azkaban是LinkedIn开源的工作流任务调度器，用于按顺序执行批量任务。核心功能包括任务调度、依赖管理、失败重试和可视化监控。相比Oozie和Airflow，Azkaban配置更简单，Web UI更友好。 Azkaban采用三组件架构：Web Server（管理界面）、Executor Server（任务执行）和MySQL（元数据存储）。支持三种部署模式：单机模式（测试用）、双服务器模式（生产环境）和多执行器模式（大规模场景）。

2026-06-19 10:45:06 257

原创 Hadoop学习教程，从入门到精通，Kafka的安装与使用 —— 知识点详解与案例代码(11）

这份文档系统阐述了Kafka分布式消息系统的核心原理与Java实战开发。内容涵盖Kafka的架构组件（Broker、Topic、Partition、Consumer Group）、分区策略与副本机制，并深入讲解了生产者拦截器链（计数、过滤脱敏、延迟监控）的定制化开发。文档提供了完整的集群搭建、命令行操作及Java API代码示例，涵盖同步/异步发送、手动提交Offset、AdminClient管理等关键场景。通过理论结合案例，帮助开发者快速掌握Kafka的高吞吐量、持久化特性及其在日志收集、流处理等场景。

2026-06-18 10:06:13 454

原创 Hadoop学习教程，从入门到精通，Sqoop数据迁移 — 完整知识点与案例代码(10）

Apache Sqoop是一款用于在Hadoop生态（HDFS/Hive/HBase）与关系型数据库（MySQL/Oracle等）间批量迁移数据的工具。核心功能包括数据导入（RDBMS→Hadoop）和导出（Hadoop→RDBMS），基于MapReduce实现并行传输。安装需配置环境变量、JDBC驱动及Hadoop组件路径。常用命令：list-databases（查看数据库）、import（导入）、export（导出）等，支持通过--num-mappers控制并行度，--split-by指定分片列。

2026-06-17 11:18:51 336

原创 Hadoop学习教程，从入门到精通，Flume日志采集系统 — 完整知识点与案例代码(9）

Flume是Apache开源的分布式日志采集系统，具有高可靠、高可用特点，支持从多种数据源采集数据并传输到HDFS、HBase等存储系统。其核心组件包括Source（数据采集）、Channel（数据缓存）和Sink（数据输出），通过Event作为数据传输单元。 Flume支持单Agent和多Agent级联部署架构，可配置多路复用数据流。部署需JDK环境，配置包括环境变量和Agent参数设置。典型应用如Netcat Source监听端口数据并输出到日志。

2026-06-16 08:58:00 301

原创 Hadoop学习教程，从入门到精通， HBase 分布式数据库 — 完整知识点与案例代码(8）

HBase 是一个分布式、面向列的 NoSQL 数据库，基于 Google Bigtable 设计，具有海量存储、高可靠性和线性扩展能力。与传统关系数据库相比，HBase 采用列式存储，仅有行键索引，适合处理稀疏数据和大规模数据集。其架构包含 Master、RegionServer、ZooKeeper 等组件，数据通过预写日志和 MemStore 机制保证可靠性。HBase 表由行键、列族、列限定符、时间戳和值五维组成，支持多版本数据，物理存储上按列族分开。本文系统介绍了 HBase 的核心特点、架构原理、

2026-06-15 08:54:06 343

原创 Hadoop学习教程，从入门到精通， Hive数据仓库 — 完整知识点与案例代码(7）

本文全面介绍了Hive数据仓库的核心概念、架构与部署方式。主要内容包括：1）数据仓库的定义与特性（面向主题、集成、稳定、时变）；2）典型分层架构（ODS/DWD/DWS/ADS）和数据模型（星型/雪花）；3）Hive与传统数据库的区别（存储规模、延迟、更新能力等）；4）Hive系统架构（用户接口、驱动层、元数据存储、执行引擎）；5）两种部署模式（内嵌Derby模式和本地MySQL模式）及其配置方法。文章通过表格对比和架构图示，系统性地阐述了数据仓库与Hive的关键知识点。

2026-06-14 10:14:48 179

原创 Hadoop学习教程，从入门到精通， Hadoop 3.x 高可用集群 — 知识点详解(6）

本章系统介绍了Hadoop 3.x高可用集群的架构与部署。HDFS HA通过Active/Standby双NameNode配合JournalNode共享存储和ZKFC自动故障转移，消除NameNode单点故障；YARN HA采用类似机制实现ResourceManager主备切换，依托ZooKeeper存储应用状态。文章详细阐述了各组件的工作机制、完整配置参数、故障转移流程，并给出了集群环境规划、ZooKeeper部署、Hadoop安装配置、初始化启动的全流程操作指南，辅以Java客户端代码和运维脚本。

2026-06-12 09:00:09 469

原创 Hadoop学习教程，从入门到精通， ZooKeeper 分布式协调服务 — 全面知识点与案例代码(5）

ZooKeeper是一个开源的分布式协调服务框架，提供统一的命名服务、配置管理、分布式同步等功能。它具有全局数据一致、可靠性、顺序性等特性，采用树形数据模型存储关键数据。ZooKeeper集群由Leader、Follower和Observer三种角色组成，通过ZAB协议保证数据一致性。节点分为持久节点、持久顺序节点、临时节点和临时顺序节点四种类型，适用于不同场景。ZooKeeper适合构建高可用的分布式系统，但不适合存储海量数据。

2026-06-11 10:26:30 349

原创 Hadoop学习教程，从入门到精通， MapReduce分布式计算框架 — 完整知识点与代码案例(4）

本文系统介绍了MapReduce分布式计算框架的核心概念与技术要点。主要内容包括：1)MapReduce概述，阐述其分而治之、计算向数据移动的核心思想；2)编程模型详解，展示Map、Shuffle、Reduce三阶段的数据流转过程；3)工作原理剖析，详细说明MapTask和ReduceTask的执行流程及关键机制；4)编程组件介绍，重点讲解了InputFormat组件及其应用案例。文章还包含代码示例，如自定义InputFormat实现小文件合并功能。

2026-06-10 08:27:10 340

原创 Hadoop学习教程，从入门到精通， HDFS分布式文件系统 — 完整知识点与案例代码(3）

HDFS是Hadoop的核心组件，专为处理超大数据集设计。它采用主从架构，包含NameNode（管理元数据）、DataNode（存储数据块）和Secondary NameNode（辅助合并元数据）。核心特点包括高容错性（默认3副本）、高吞吐量（128MB块大小）、流式数据访问（一次写入多次读取）和机架感知的副本放置策略。HDFS适合存储大文件但不适合低延迟访问或频繁修改场景。其读写流程通过客户端与NameNode协调定位数据块，再直接与DataNode交互实现高效数据传输。

2026-06-09 08:43:30 309

原创 Hadoop学习教程，从入门到精通，部署Hadoop 3.x — 知识点详解(2）

## 摘要本章详细介绍了Hadoop 3.x集群的完整部署流程。首先从安装准备入手，涵盖硬件软件需求、网络规划及虚拟机创建与克隆。随后逐步讲解CentOS 7系统配置，包括静态IP、主机名映射、防火墙关闭及SSH免密登录等基础环境搭建。在此基础上，完成JDK与Hadoop的安装及环境变量配置。本章重点阐述了伪分布式和完全分布式两种部署模式的配置方法，详细说明了core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个核心配置文件的作用.

2026-06-08 10:53:49 243

原创 Hadoop学习教程，从入门到精通，初识Hadoop — 知识点详解(1）

本章介绍了大数据的基本概念、5V特征及结构化、半结构化和非结构化三类数据类型，阐述了大数据在医疗、金融、零售等领域的应用价值。重点讲解了Hadoop的起源（源自Google的GFS和MapReduce论文）、核心优缺点及生态系统全景，梳理了Hadoop从1.x到3.x三代架构的关键演进——包括YARN资源管理框架的引入、HDFS高可用机制的完善以及Erasure Coding等新技术的应用，为后续深入学习HDFS、MapReduce和YARN奠定基础。

2026-06-07 10:47:30 454

原创数据预处理入门学习教程，从入门到精通，实战演练——数据分析师岗位分析知识点详解(8）

本文介绍了数据分析的标准流程及使用pyecharts进行可视化的方法。数据分析流程包含5个阶段：明确目标、数据收集、预处理、分析与展现、结论与建议。文章重点演示了如何使用pyecharts绘制流程图（桑基图），包括节点定义、链接关系设置和样式配置。pyecharts的核心架构包含图表类型、配置项和渲染三部分，支持多种图表如柱状图、折线图、饼图等，通过链式调用实现高效可视化。文中提供了完整的代码示例，帮助读者快速掌握数据分析流程可视化的实现方法。

2026-06-06 09:57:32 242

原创数据预处理入门学习教程，从入门到精通，数据清理工具—— OpenRefine 完整知识点与案例代码(7）

OpenRefine 是一款开源桌面级数据清理与转换工具，支持 CSV/Excel/JSON/XML 等多种格式。核心功能包括交互式列操作、数据聚类、表达式转换(GREL/Jython/Clojure)和操作历史追踪。安装需 Java 环境，通过浏览器访问本地服务端口操作。

2026-06-05 08:58:56 222

原创数据预处理入门学习教程，从入门到精通，数据集成、变换与规约 — 完整知识点与案例代码(6）

本章系统阐述了数据预处理的核心环节：集成、变换与规约。内容涵盖多源数据的合并策略，包括基于键的merge()、轴向堆叠concat()及索引连接join()，并对比了不同连接方式（内、外、左、右）的特点。详细介绍了数据变换技术，如pivot长宽格式转换、groupby分组聚合、get_dummies哑变量处理以及cut/qcut面元划分。此外，还讲解了利用resample进行时间序列降采样和多层索引重塑等规约方法。

2026-06-04 10:48:29 371

原创数据预处理入门学习教程，从入门到精通，数据清理 — 完整知识点与案例代码(5）

数据清理是识别和纠正数据错误的过程，主要包括处理缺失值、重复值和异常值，统一数据格式和类型转换。核心流程包括：加载数据、查看概况、处理缺失值/重复值/异常值，最后保存清理结果。

2026-06-03 11:21:26 200

原创数据预处理入门学习教程，从入门到精通，数据获取 — 知识点详解与案例代码(4）

本章系统介绍了Python中从多种文件格式获取数据的方法与技巧。内容涵盖六大常用格式：CSV/TXT文件通过pd.read_csv()灵活读取，支持自定义分隔符、编码及缺失值处理；Excel文件通过pd.read_excel()读取，支持多工作表操作；JSON文件借助json模块与pd.json_normalize()处理嵌套结构；HTML表格通过pd.read_html()自动解析网页数据；Word文档利用python-docx库提取段落与表格；PDF文件使用pdfplumber库精确提取文本与表格。

2026-06-02 10:34:00 212

原创数据预处理入门学习教程，从入门到精通，pandas库基础 — 完整知识点与案例代码(3）

本文介绍了pandas库的两个核心数据结构：Series和DataFrame。重点讲解了Series的创建方式（从列表、字典、标量值、numpy数组）、常用属性（values、index、dtype等）、元素访问方法（标签/位置访问、切片、loc/iloc）、向量化运算与布尔筛选技巧，以及缺失值处理方法（isna、fillna、dropna）。通过代码示例展示了pandas在数据处理中的高效操作方式，为数据分析工作奠定了基础。

2026-06-01 08:59:16 172

原创数据预处理入门学习教程，从入门到精通，科学计算库——NumPy 完整知识点与案例代码(2）

本章系统介绍了NumPy科学计算库的核心知识。首先讲解ndarray数组对象的属性与数据类型转换；其次涵盖多种数组创建方法，包括arange、linspace、eye及随机数组等；重点阐述了整数索引、花式索引、布尔索引和切片等元素访问方式；在数组运算部分，详细讲解了逐元素运算、广播机制及标量运算；最后介绍了排序、检索、唯一化、转置与变形等常用数组操作，并通过学生成绩管理、图像处理和矩阵运算三个综合案例巩固所学内容。

2026-05-31 09:36:03 634

原创数据预处理入门学习教程，从入门到精通，数据预处理概述 —— 知识点详解(1）

数据预处理摘要数据预处理是数据分析前的关键步骤，主要包括数据清洗、转换、集成和规约。主要解决数据缺失、噪声、不一致、重复、不平衡、类型错误和维度问题。预处理流程包括：数据审计、清洗（处理缺失值、噪声和重复）、集成（合并多源数据）、转换（规范化、编码和离散化）和规约（降维）。其目标是提高数据质量，确保分析结果准确可靠。预处理通常占数据科学项目60%-80%的时间，直接影响后续建模效果。

2026-05-30 09:46:58 652

原创 Flask入门学习教程，从入门到精通，Flask智能租房——用户中心知识点详解(9）

本文详细介绍了基于Flask框架的智能租房系统用户中心模块的核心功能与实现方法。内容涵盖用户注册、登录与退出、个人信息管理、房源收藏与取消收藏、浏览记录管理以及基于协同过滤算法的智能推荐等六大功能模块。文章围绕Flask蓝图路由、Session会话管理、SQLAlchemy ORM数据库操作、文件上传处理、密码哈希加密、Jinja2模板渲染及皮尔逊相关系数推荐算法等关键技术，逐一进行原理讲解与代码实现，并附有完整的前后端交互示例和知识点汇总表，为开发者提供了系统性的参考指南。

2026-05-29 08:37:33 500

原创 Flask入门学习教程，从入门到精通，Flask智能租房——详情页完整知识点详解(8）

本章围绕Flask智能租房平台的详情页展开，涵盖房源数据展示与数据可视化两大核心内容。后端基于Flask路由与SQLAlchemy实现房源及配套设施的数据库查询，并通过JSON接口向前端提供数据；前端采用Jinja2模板引擎渲染详情页，展示房源基本信息与配套设施。数据可视化方面，利用ECharts分别实现饼图（户型占比）、柱状图（小区房源TOP20）、折线图（价格走势）和散点图（房价预测）。房价预测基于scikit-learn线性回归模型，通过面积与租金的关系训练模型并输出置信区间。

2026-05-28 08:50:58 401

原创 Flask入门学习教程，从入门到精通，Flask智能租房——列表页知识点详解(7）

本章围绕Flask智能租房系统列表页展开，涵盖搜索、最新房源和热点房源三大模块。后端采用Blueprint蓝图组织路由，通过SQLAlchemy实现多条件组合查询、排序与分页；利用Redis缓存最新及热点数据，配合Sorted Set构建热度排行榜与APScheduler定时更新。前端使用Jinja2模板渲染页面，结合Fetch API异步请求与DOM动态渲染，实现搜索条件筛选、分页导航、滚动加载等交互功能。同时介绍了事务管理、异常处理、统一JSON响应规范及防抖节流等性能优化技巧。

2026-05-27 17:39:14 358

原创 Flask入门学习教程，从入门到精通，Flask智能租房——首页知识点详解(6）

本章围绕Flask智能租房系统的首页开发，系统讲解了房源总数展示、最新及热点房源查询、智能搜索等核心功能的实现。涵盖Flask路由与视图函数、Jinja2模板引擎（变量渲染、循环、条件判断、过滤器）、SQLAlchemy ORM（模型定义、排序分页、聚合查询）、AJAX异步前后端交互、蓝图与应用工厂模式、Session会话管理、登录验证装饰器及请求钩子等知识点，并结合完整的CSS布局与动画实现，构建了一个功能完善的租房平台首页。

2026-05-26 11:10:07 435

原创 Flask入门学习教程，从入门到精通，Flask智能租房——前期准备知识点详解(5）

本项目采用Django框架的MVT架构模式，包含Model(数据层)、View(业务逻辑层)和Template(模板层)三大核心组件。开发流程包括：通过models.py定义数据模型，views.py处理请求逻辑，templates目录存放前端模板，urls.py配置路由映射。项目支持多种响应方式（HTML/JSON/重定向）和请求处理方法（GET/POST参数获取），内置中间件提供安全防护、会话管理等功能。

2026-05-25 10:51:26 299

原创 Flask入门学习教程，从入门到精通，数据库操作 — 知识点详解与案例代码(4）

本文详细介绍了Flask应用中数据库操作的核心知识点，包括：数据库基础：对比关系型与非关系型数据库，解释ORM技术优势环境配置：Flask-SQLAlchemy安装步骤及验证方法连接配置：数据库URI格式详解 MySQL和SQLite两种数据库的完整连接案例关键配置参数说明（连接池、字符集等）模型定义：简要说明模型概念及常用字段类型所有代码示例均包含详细注释，涵盖从安装到测试连接的全流程，适合Flask初学者快速掌握数据库集成技术。

2026-05-24 13:42:37 436

原创 Flask入门学习教程，从入门到精通， Flask模板 — 完整知识点与案例代码 (3）

本文介绍了Flask框架中的模板系统Jinja2的核心知识点。主要内容包括：1) 模板基础概念与Jinja2引擎简介；2) 模板渲染的基本方法；3) Jinja2的三种特殊定界符及其用途；4) 变量传递的两种方式（关键字参数和locals()）；5) 模板中的变量输出、表达式计算、控制语句和循环结构。通过示例代码展示了如何在Flask应用中渲染模板、传递变量，并在模板中使用条件判断、循环等逻辑控制。

2026-05-23 18:12:03 699

原创 Flask入门学习教程，从入门到精通， Flask模板 — 完整知识点与案例代码 (2）

本文介绍了Flask框架中模板引擎Jinja2的核心知识点，包括模板基础语法、变量传递方式和渲染方法。主要内容有：1）模板概念与Jinja2引擎特性；2）三种特殊定界符的使用场景（变量输出、控制语句、注释）；3）通过关键字参数或locals()传递变量的两种方式；4）模板中变量访问和表达式计算的示例代码。文章提供了完整的项目目录结构和Flask应用示例，演示了字符串、数字、列表、字典等不同类型变量在模板中的使用方法。

2026-05-21 07:50:48 400

原创 Flask入门学习教程，从入门到精通，认识Flask路由 — 知识点详解 (2）

Flask路由系统详解：1) 注册路由可通过@app.route装饰器或app.add_url_rule方法，endpoint用于URL反向解析；2) URL参数传递支持路径参数和查询字符串两种方式；3) 内置转换器(string/int/float/path/uuid/any)可验证参数类型，支持自定义转换器；4) Request对象封装HTTP请求信息，包含method/url/form/json等常用属性。

2026-05-20 08:52:07 275

原创 Flask入门学习教程，从入门到精通，认识Flask —— 知识点详解 (1）

Flask是一个轻量级Python Web框架，基于Werkzeug WSGI工具库和Jinja2模板引擎构建。它具有简洁灵活、易于上手、扩展丰富等特点，适合小型项目和API开发。本文详细介绍了Flask的核心概念、环境搭建步骤和开发工具配置。主要内容包括：Flask与其他框架的对比、WSGI协议原理、虚拟环境创建方法（venv/virtualenv/conda）、Flask安装验证技巧，以及PyCharm IDE的配置建议。通过清晰的步骤说明和对比表格，帮助开发者快速掌握Flask开发环境的搭建要点。

2026-05-19 09:05:30 441

原创 R语言入门学习教程，从入门到精通， R语言多维数据可视化 (11）

本文介绍了R语言中多维数据可视化的主要方法，包括热图、矩阵散点图和平行坐标图。首先讲解了数据标准化和相关系数矩阵计算的基础知识，然后详细演示了如何使用ggplot2和pheatmap包创建相关系数热图和聚类热图。接着介绍了矩阵散点图的两种实现方式：基础R的pairs函数和GGally包的ggpairs函数，后者提供更丰富的可视化选项。文章包含完整的R代码示例，涵盖数据生成、标准化处理、图形绘制和美化调整等关键步骤，帮助读者掌握多维数据的可视化分析技巧。这些方法可以有效揭示变量间的相关性、聚类模式和异常值。

2026-05-18 23:55:34 226

空空如也

空空如也