LO嘉嘉VE-CSDN博客

原创学习笔记三十：极大似然估计

本文介绍了参数估计中的极大似然方法。首先阐述了参数估计的任务背景，即通过训练数据估计类条件概率分布的参数，并对比了频率派和贝叶斯派的不同视角。重点讲解了极大似然估计的基本思想：选择使观测数据出现概率最大的参数，通过构建对数似然函数避免数值问题。以正态分布为例，推导出均值和方差的极大似然估计就是样本均值和样本方差。最后指出该方法计算简单但依赖分布假设的合理性，强调选择合适分布形式的重要性。

2025-12-15 22:20:09 814

贝叶斯决策论是概率框架下的基本决策方法，通过最小化条件风险实现最优分类。其核心包括定义误判损失、计算条件风险与总体风险，并推导出贝叶斯最优分类器（选择使后验概率最大的类别）。实际应用中需估计后验概率，可采用判别式模型直接建模或生成式模型通过联合概率推导。由于类条件概率估计困难，常需假设属性独立性。贝叶斯决策论为分类问题提供了理论基准，1-R(h*)反映了分类器的理论上限性能。该理论指导了机器学习模型设计，是评估分类器的重要理论基础。

2025-12-13 23:00:48 1032

原创学习笔记二十八：核方法

核方法是机器学习中处理非线性问题的重要工具，其核心思想是通过核函数隐式表达高维特征映射，避免显式计算。表示定理表明，在再生核希尔伯特空间中，最优解总可表示为核函数的线性组合，为核方法提供了理论基础。核化过程通过替换线性算法中的内积运算，将线性方法扩展为非线性版本，如核线性判别分析（KLDA）。核方法的优势包括计算效率高、适用范围广，并广泛应用于支持向量机、核主成分分析等领域。选择合适的核函数是应用核方法的关键。

2025-12-09 19:12:45 877

原创学习笔记二十七：支持向量回归

支持向量回归(SVR)是一种基于支持向量机的回归方法，其核心思想是允许预测值与真实值之间存在ε的偏差，仅当误差超出ε时才计算损失。SVR通过引入松弛变量处理超出ε间隔带的样本，优化目标包含模型复杂度和误差惩罚两部分。与SVM类似，SVR可通过核函数处理非线性问题，且解具有稀疏性，仅依赖支持向量。SVR通过参数ε控制误差容忍度，C控制模型复杂度，适用于含噪声数据，比传统回归方法更鲁棒。其优势包括对噪声的鲁棒性、解的稀疏性和核方法的灵活性。

2025-12-07 12:39:30 860

原创学习笔记二十六：支持向量机-软间隔与正则化

软间隔SVM通过引入松弛变量和正则化参数C，解决了硬间隔SVM对噪声敏感和过拟合的问题。其核心思想是在最大化间隔的同时允许部分样本违反约束，通过参数C平衡间隔最大化与分类误差。使用替代损失函数（如Hinge损失）将问题转化为凸优化，对偶问题中拉格朗日乘子α_i被限制在0≤α_i≤C范围内。正则化项控制模型复杂度，提高泛化能力。软间隔SVM能处理线性不可分数据，保持稀疏性，支持向量包含边界内和误分类样本，实际应用中需通过交叉验证选择合适C值。该方法结合核函数可有效解决复杂分类问题，其正则化思想在机器学习中具有

2025-12-06 09:33:20 1267

原创学习笔记二十五：支持向量机-核函数

核函数是支持向量机(SVM)处理非线性分类问题的关键方法。它通过将数据映射到高维特征空间，使原本线性不可分的问题转化为线性可分问题，同时避免直接计算高维内积。常用的核函数包括线性核、多项式核和高斯核(RBF核)，其中高斯核因强大的非线性能力最为常用。核函数选择直接影响模型性能，需要根据数据特点、问题规模进行权衡，通常从高斯核开始尝试并通过交叉验证调参。核函数组合可构造更复杂的核函数，为SVM提供灵活的非线性处理能力。

2025-12-05 19:51:06 1137 1

原创学习笔记二十四：支持向量机-对偶问题

SVM通过拉格朗日乘子法将原始问题转化为对偶问题，具有计算高效、便于引入核函数等优势。对偶问题仅与支持向量相关，具有稀疏性。SMO算法通过每次优化两个变量高效求解对偶问题，利用KKT条件确定支持向量。最终模型仅依赖于支持向量，预测时只需计算新样本与支持向量的内积。这一方法结合了理论优势与计算效率，是SVM的重要理论基础。

2025-12-03 19:47:43 1096

原创学习笔记二十三：支持向量机-间隔与支持向量

本文介绍了支持向量机(SVM)的基本原理。SVM通过在样本空间中寻找最优划分超平面来实现分类，其核心思想是最大化分类间隔以提高泛化能力。关键概念包括：划分超平面的数学表示（由法向量和位移项定义）、支持向量（决定超平面位置的最近样本点）以及间隔（反映分类置信度）。SVM的基本型是一个凸二次规划问题，通过最小化法向量范数平方来最大化间隔，同时满足所有样本正确分类的约束条件。该方法具有理论严谨、模型稀疏、全局最优等优势，是经典的分类学习算法。

2025-12-02 21:35:49 890

原创学习笔记二十二：神经网络的几起几落

神经网络发展历经多次起落：1940年代萌芽（M-P模型、Hebb学习规则），1956-1969年第一次繁荣（感知机、Adaline），1969年后进入冰河期（《Perceptrons》的负面影响，1974年BP算法被忽视），1984-1997年第二次繁荣（Hopfield网络、1986年BP算法重新发现），1997年后沉寂（SVM与统计学习理论兴起），2012年至今第三次繁荣（深度学习崛起，在ImageNet等竞赛中取得突破，产业界大量投入）。

2025-11-30 09:25:59 1126 1

原创学习笔记二十一：深度学习

典型的深度学习模型是深度神经网络（deep neural network），即具有很多隐层的神经网络。增加隐层的数目比增加隐层神经元的数目更有效，因为增加隐层数不仅增加了拥有更多参数的机会，而且增加了模型抽象的层次。增加隐层数会带来更多的参数（连接权、阈值），从而增加模型的复杂度。

2025-11-29 09:08:37 1258 3

原创学习笔记二十：其他神经网络

介绍几种常见的神经网络模型，包括RBF网络、ART网络、SOM网络、级联相关网络、Elman网络和Boltzmann机等。

2025-11-28 20:34:37 677

原创学习笔记十九：全局最小与局部最小

本文系统阐述了神经网络参数优化的核心概念与方法。首先定义了误差函数和参数优化过程，区分了局部极小与全局最小解。重点分析了梯度下降法的原理及其局限性，详细介绍了跳出局部极小的四种策略：多组参数初始化、模拟退火、随机梯度下降和遗传算法。这些方法虽然多为启发式且缺乏理论保障，但实践表明能有效改善优化效果。文章最后总结了参数优化的本质是寻找使误差函数最小的最优参数组合，而处理多局部极小问题是提升神经网络性能的关键。全文层次清晰，既阐述了理论基础，又提供了实用解决方案。

2025-11-27 20:02:01 403

原创学习笔记十八：误差逆传播算法

BP算法是训练多层神经网络的核心方法，通过误差反向传播调整网络参数。标准BP算法针对单个样本更新参数，而累积BP算法则在完整数据集处理后更新。算法需合理设置学习率，避免振荡或收敛过慢。BP网络易过拟合，可采用早停和正则化缓解。隐藏层神经元数量需通过实验确定，平衡表达能力和复杂度。BP算法不仅适用于前馈网络，也可训练递归网络，是深度学习的重要基础。

2025-11-25 19:41:24 538

原创学习笔记十七：神经网络基础概念

神经网络（neural network）是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。在生物神经网络中，每个神经元与其他神经元相连，当它"兴奋"时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个"阈值"（threshold），那么它就会被激活，即"兴奋"起来，向其他神经元发送化学物质。1943年，McCulloch和Pitts将上述情形抽象简单模型，这就是一直沿用至今的M-P神经元模型。

2025-11-23 19:49:42 752

原创学习笔记十六：多变量决策树

多变量决策树（multivariate decision tree）是一种决策树变体，其非叶结点不再是仅对某个属性进行测试，而是对属性的线性组合进行测试。

2025-11-22 10:14:25 889

原创学习笔记十五：连续与缺失值

摘要：本文探讨决策树学习中连续值和缺失值的处理方法。针对连续属性，采用二分法离散化技术，通过候选划分点选择最优分割。对于缺失值问题，C4.5算法提出基于样本权重的解决方案：在属性选择时基于无缺失样本计算增益，在样本划分时将缺失值样本按比例分配到各子节点。这两种方法有效解决了决策树在处理现实数据时遇到的关键挑战，实现了对不完整数据的充分利用，是决策树算法的重要技术改进。

2025-11-21 21:35:27 1389

原创学习笔记十四：决策树剪枝

决策树剪枝是防止过拟合的主要手段，分为预剪枝和后剪枝两种策略。预剪枝在决策树生成过程中提前停止分支扩展，能快速降低过拟合风险但可能欠拟合；后剪枝在生成完整决策树后自底向上剪枝，保留更多分支且泛化性能更好，但计算成本较高。两种方法各有优劣：预剪枝适合对时间敏感的场景，后剪枝适合追求精度的场景。评估剪枝效果通常采用留出法划分训练集和验证集，通过验证集精度判断剪枝效果。实际应用中需根据具体需求权衡选择剪枝策略。

2025-11-20 21:03:28 1258

原创学习笔记十三：决策树划分

决策树划分选择是构建决策树的核心问题，主要通过信息增益、增益率和基尼指数三种准则来选择最优划分属性。信息增益（ID3算法）衡量划分前后的纯度提升，但对多值属性有偏好；增益率（C4.5算法）通过引入固有值来平衡这一偏好；基尼指数（CART算法）计算简单高效。三种准则各有特点：信息增益直观但可能偏向多值属性，增益率更平衡但计算稍复杂，基尼指数适用于大规模数据。实际应用中应根据数据特性和任务需求选择合适准则，以构建高效的决策树模型。

2025-11-19 19:08:49 1045

原创学习笔记十二：决策树

决策树是一种基于树结构的分类方法，通过递归选择最优属性划分样本集。其基本流程从根节点开始，内部节点进行属性测试，叶节点输出分类结果。核心算法采用分治策略，通过递归生成子树，终止条件包括样本同属一类、属性集为空或样本属性取值相同。决策树具有直观易懂、可解释性强的特点，广泛应用于医疗、金融等需要可解释模型的领域。关键要素在于属性选择策略、递归终止条件和叶节点标记规则，这些决定了模型的性能和泛化能力。

2025-11-18 19:50:28 309

原创学习笔记十一：类别不平衡问题

类别不平衡是分类任务中不同类别样本数量差异显著的问题，会影响分类器性能。常见处理方法包括：（1）再缩放调整决策阈值；（2）欠采样减少多数类样本（如EasyEnsemble算法），效率高但可能丢失信息；（3）过采样增加少数类样本（如SMOTE算法），但需防止过拟合；（4）阈值移动直接调整预测阈值。实际应用中应根据数据特点和需求选择合适方法，欠采样适合多数类样本多的情况，过采样适合少数类样本少的情况，而阈值移动最简便。这些方法可与代价敏感学习结合，共同解决实际问题。

2025-11-17 13:23:49 1033

原创学习笔记十：多分类学习

多分类学习是通过拆解法将多分类任务转化为多个二分类任务求解的机器学习方法。主要拆解策略包括：一对一（OvO）策略，通过两两配对训练N(N-1)/2个分类器；一对其余（OvR）策略，每个类别对应一个分类器；以及多对多（MvM）策略，常用纠错输出码（ECOC）技术，具有编码纠错能力。OvO训练开销较小但存储需求大，OvR反之，ECOC计算复杂但容错性强。方法选择需根据任务特点、类别数和样本量进行权衡。

2025-11-16 09:23:40 971

原创学习笔记九：线性判别分析

线性判别分析（LDA）是一种监督降维和分类方法，其核心思想是通过寻找最优投影方向，使同类样本尽可能聚集，不同类样本尽可能分离。LDA通过最大化类间散度与类内散度的比值来优化投影效果，对二分类问题投影到一维空间，多分类则投影到N-1维空间。相比无监督降维方法如PCA，LDA利用类别信息通常能取得更好效果，具有理论基础扎实、计算高效等优点，广泛应用于人脸识别、文本分类等领域。虽然LDA假设数据服从高斯分布且协方差相同，但在实践中仍表现良好，适用于线性可分数据，非线性数据可采用核LDA等扩展方法。

2025-11-15 21:08:39 1034

原创学习笔记八：对数几率回归

本文介绍了对数几率回归（Logistic Regression）的基本原理与应用。首先讨论了分类任务与回归任务的区别，指出需要将线性回归的实数值转化为二分类所需的0/1值。然后重点阐述了Sigmoid函数作为替代函数的优势，详细分析了其数学特性和概率解释。在方法层面，说明了如何通过极大似然估计确定模型参数，并介绍了梯度下降和牛顿法等优化算法。最后强调了对数几率回归虽然名称含"回归"，实则是重要的分类方法，具有直接建模分类概率、数学性质优良等优点，适用于需要概率输出的二分类场景。

2025-11-12 21:27:18 1043

原创学习笔记七：线性回归

本文系统介绍了线性模型的基本概念与应用。线性模型通过属性线性组合进行预测，具有形式简单（f(x)=w₁x₁+...+wₑxₑ+b）、可解释性强等特点。重点分析了线性回归的定义、目标函数（最小化均方误差）和几何意义（最小二乘法）。文章还探讨了离散属性的处理方法，包括有序属性转化为连续值、无序属性进行One-Hot编码。针对线性模型的局限性（线性假设、异常值敏感等），提出了正则化、特征工程等改进方法。作为机器学习基础模型，线性回归适用于数据量小或关系简单的场景，也是复杂模型的重要基础。

2025-11-11 21:37:51 495

原创学习笔记六：偏差与方差

偏差-方差分解是分析机器学习模型泛化性能的重要工具，将误差分解为偏差（算法拟合能力）、方差（数据扰动敏感性）和噪声（任务固有难度）三部分。随着训练程度加深，偏差降低而方差上升，形成U型泛化误差曲线。实际应用中需要平衡偏差与方差的冲突（偏差-方差窘境），通过调整模型复杂度、正则化等方法找到最优平衡点以获得最佳泛化性能。

2025-11-10 00:49:02 430

原创学习笔记五：比较检验

机器学习模型性能比较需要使用统计检验方法验证差异的显著性。常见方法包括：交叉验证t检验用于比较两个学习器的测试误差；McNemar检验适用于固定测试集上的配对比较；Friedman检验用于多个模型在多数据集上的性能排名比较，在拒绝零假设后可结合Nemenyi后续检验进行成对分析。这些方法各有适用场景，应根据模型数量、数据独立性等因素选择合适的检验方式，避免仅凭测试性能做出错误结论。

2025-11-04 19:30:01 650

原创学习笔记四：性能度量

本文系统介绍了机器学习模型的性能度量方法。针对分类任务，详细阐述了错误率、精度、查准率、查全率的概念及其矛盾关系，介绍了P-R曲线、F1度量、ROC曲线和AUC等评估指标。对于回归任务，主要采用均方误差(MSE)作为评价标准。此外还讨论了代价敏感场景下的错误率度量和代价曲线。文章强调性能度量必须与实际任务需求相匹配，不同的评价标准可能得出不同结论，因此需要根据任务特点选择合适的方法来评估模型性能。这些性能指标为模型选择和优化提供了客观依据。

2025-11-02 21:42:03 1039

原创学习笔记三：评估方法

本文介绍了机器学习模型评估的基本概念和方法。重点阐述了训练误差、泛化误差和测试误差的区别，以及过拟合和欠拟合现象。详细讲解了三种主要评估方法：留出法（保持数据分布一致性）、交叉验证法（k折验证与留一法）和自助法（适用于小数据集）。强调评估的核心原则是测试集与训练集的互斥性。这些方法通过合理划分数据集来有效估计模型的泛化性能，为模型选择提供依据。

2025-11-02 08:21:07 550