Honker_yhw-CSDN博客

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-集成学习与 AdaBoost

提升模型性能不一定依赖复杂结构合理组合多个简单模型同样有效Boosting 的核心在于“关注错误并修正错误”AdaBoost 作为 Boosting 家族的基础算法，为后续理解 GBDT、XGBoost 等方法提供了重要理论起点。笔记来源：冯同学均有明显提升。提升模型性能不一定依赖复杂结构合理组合多个简单模型同样有效Boosting 的核心在于“关注错误并修正错误”

2026-06-03 16:03:42 350

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-非线性回归

非线性回归是一种统计建模方法，用于描述因变量（响应变量）与一个或多个自变量（解释变量）之间的非线性关系。与线性回归不同，非线性回归模型的预测函数无法表示为自变量的线性组合。本质线性模型是指形式上呈现非线性关系，但通过适当的变量变换可以转化为线性形式的回归模型。原始模型关于参数是非线性的存在确定的数学变换可使其参数线性化变换后可使用线性回归方法进行参数估计本质非线性模型是指无法通过任何变量变换或参数重组转化为线性形式的回归模型。参数非线性性无法通过数学变换消除必须使用非线性优化方法直接求解。

2026-05-28 08:51:42 2496

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-LASSO回归

维度优势局限特征选择自动进行变量选择，产生稀疏解当pnp>npn时，最多选择nnn个变量可解释性模型简单，特征重要性明确相关性强的特征中可能随机选择一个计算效率有高效算法（坐标下降、LARS）非凸推广（如SCAD）计算复杂理论性质在一定条件下具有Oracle性质需要严格的"不可表示条件"

2026-05-23 11:18:41 487

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-Logistic回归

优势局限✅ 模型简单，可解释性强（系数即特征重要性）❌ 只能处理线性可分问题✅ 训练速度快，适合大规模数据❌ 对特征工程依赖较强✅ 输出概率值，便于阈值调整和业务决策❌ 容易欠拟合复杂非线性关系✅ 不易过拟合（尤其加正则化后）❌ 对多重共线性敏感✅ 易于扩展到多分类（Softmax）❌ 对异常值较敏感我的思考Logistic回归是理解深度学习的基石：神经网络的输出层（二分类）本质上就是一个Logistic回归。

2026-05-18 14:13:29 563 1

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-非线性相关分析

在研一上学期学习了《大数据分析D》课程，3.3节让我彻底改变了以往对“相关性”的认知，是最让我感到“原来如此”的一章内容。之前本科学统计时，Pearson相关系数几乎成了“万能钥匙”——只要两个变量，就先算个r看看强不强。因此，以往不论是参加比赛还是写本科毕业论文时，习惯性只看Pearson相关系数，一旦接近0就认为“没关系”。经过这一节的学习才对“线性相关为0，不代表无相关”的理解更加深刻——变量间可能存在复杂的非线性依赖。

2026-05-17 10:39:30 613

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-偏相关分析

偏相关分析(Partial Correlation Analysis)是在多变量相关分析中,研究当其他变量保持不变时,两个变量之间的相关关系。它能够排除其他变量的影响,揭示两个变量之间的真实相关性。核心思想控制其他变量的影响分析两个变量之间的净相关关系消除混淆变量的干扰揭示变量间的真实关联强度NOTE]我的理解偏相关分析就像"排除干扰项的纯净测试"——当我们想知道X和Y的真实关系时,需要先把Z的影响"扣除"公式本质：偏相关 = 原始相关 - 混杂变量贡献。

2026-05-16 23:13:25 578

原创大数据管理与应用系列丛书《数据挖掘》（吕欣等著）读书笔记-数据预处理

数据预处理是数据挖掘的关键环节，主要包括四大任务：数据清洗（处理缺失值和噪声）、数据集成（合并多源数据并解决实体识别问题）、数据规约（降维和压缩）以及数据变换。预处理质量直接影响后续分析效果，需从完整性、一致性等六个维度评估数据质量。常用技术包括分箱平滑、回归分析、PCA降维等，如同装修房屋需先清理毛坯、打通空间再精简装饰。良好的预处理能显著提升模型性能，避免"垃圾进垃圾出"的问题。

2026-05-14 15:54:59 504

原创大数据管理与应用系列丛书《大数据平台架构》（吕欣等著）读书笔记-Hive

Apache Hive是一个基于Hadoop的数据仓库工具，它通过类SQL语言HiveQL简化了大数据处理。Hive的核心功能包括数据抽取、转换和加载(ETL)，支持处理PB级数据，提供灵活的数据模型和扩展能力。其架构包含用户接口、跨语言服务、驱动程序和元数据存储四大组件，支持CLI、Web界面和JDBC/ODBC等多种访问方式。Hive将SQL查询转换为MapReduce、Tez或Spark任务在Hadoop集群上执行，隐藏了底层复杂性，使大数据分析更加高效便捷。作为Hadoop生态的重要成员，Hive适

2025-08-25 17:17:15 770