AI酱的读书笔记-CSDN博客

原创生成式AI模型的重要评估指标——FID

随着深度学习的发展迅速，生成式模型如生成对抗网络（GAN）、变分自编码器（VAE）等取得了显著的进展。看似逼真的图像数据，仍旧会有结构缺陷等情况发生，那么如何客观、准确的评估这些生成式模型的性能，就成了我们需要解决的问题。有了客观的评估标准，对后续模型的迭代、以及用户的体验上能够有很清晰的认知，也能够很好的反映生成图像的真实感和自然度。研究人员意识到，评估生成式模型不仅仅要考虑生成图像和真实图像的像素级差异，更重要的是衡量生成数据与真实数据在整体分布上的相似性。

2025-02-18 15:54:30 1953

原创《机器学习by周志华》学习笔记-神经网络-05RBF径向基函数网络

1988年，Broomhead和Lowe用径向基函数(Radialbasis function, RBF)提出分层网络的设计方法，从而将神经网络的设计与数值分析和线性适应滤波相挂钩。RBF（Radial Basis Function，径向基函数）网络是一种单隐层前馈神经网络，即该网络只有3层，输入层、隐含层、输出层。RBF网络具有多种用途，包括函数近似法、时间序列预测、分类和系统控制。

2024-11-06 11:39:57 981

原创《机器学习by周志华》学习笔记-神经网络-04全局最小误差与局部极小误差

根据上文《》我们可以知道误差公式的演化：① 第k个训练样例的误差函数：②该训练集的累积误差函数：③正则化误差目标函数：通过上面对误差公式的推演，我们可以知道，误差是关于的函数，而是关于模型实际输出的函数。在上文《》中我们可以知道模型实际输出的表达式为：其中：所以：其中为输出层计算常量，故可以推出模型实际输出是关于连接权重和阈值的函数。根据链式法则，我们可以知道误差也是是关于连接权重和阈值的函数。此时神经网络的训练过程可以看作一个寻找最佳参数使误差E更小的过程。

2024-10-29 21:27:42 1095

原创《机器学习by周志华》学习笔记-神经网络-03多层网络学习算法之误差逆传播算法

由于BP神经网络的强大的表示能力，经常遭遇过拟合的问题。表现在训练误差持续降低，但是测试误差却上升。有2种策略解决：策略1：早停（early stopping）将数据分成训练集和验证集：训练集：用来计算梯度，更新连接权重和阈值验证集：用来估计误差当训练集误差降低且验证集误差升高，则停止训练。返回验证集中最小误差的连接权重和阈值。策略2：正则化（regularization）基本思想：在误差目标函数中增加一个用于描述网络复杂度的部分。例如：连接权重与阈值的平方和。

2024-10-29 16:37:35 996

原创《机器学习by周志华》学习笔记-神经网络-02感知机与多层网络

感知机(Perceptron)由2层组织，如下图所示：「输入层神经元」接收外界输入信号后，传递给「输出层神经元」「输出层神经元」是「M-P神经元」，亦称「阈值逻辑单元（threshold logic unit）」由上面的多层神经网络的概念可知，每层神经元与下一层神经元全互联，神经元之间不存在同层连接（x2连接到x3），也不存在跨层连接（x2连接到g4）。当「隐含层」变的越来越多的时候，这样的神经网络通常被称为「多层前馈神经网络」

2024-09-18 16:53:09 1109

原创《机器学习by周志华》学习笔记-神经网络-01神经元模型

本书所谈的「人工神经网络」不是生物学意义的神经网络。这是T.Kohonen 1988年在Neural Networks创刊号上给出的定义。在「M-P神经元模型」中，神经元接收来自n个其他神经元传递过来的输入信号，这些信号带有不同的权重，通过链接(connection)不同的神经元进行传递。

2024-08-16 15:38:26 1092

原创《机器学习by周志华》学习笔记-决策树-04多变量决策树

我们将每个样本的属性作为坐标轴，则n个属性的描述值的样本就对应了n维空间中的一个数据点。对样本分类就意味着我们将在这个空间中寻找不同类样本之间的分类边界。多变量决策树，亦称「斜决策树(obliquedecision tree)」即决策树的分类边界由若干与属性轴平行的分段组成。

2024-08-14 16:28:42 1256

原创《机器学习by周志华》学习笔记-决策树-03连续值与缺失值

到目前为止，我们在决策树01、02中仅讨论了基于离散属性来生成决策树，而现实任务中常会遇到连续属性，所以在本章的学习中，我们将会讨论如何在决策树学习中使用连续属性。缺失值处理现实生活中的数据结构经常会遇到不完整的样本，即有些样本的某些属性值缺失。且样本数量越大，缺失的属性值会越多。例如医疗数据中隐私测量结果等。

2024-08-12 18:27:40 1066

原创《机器学习by周志华》学习笔记-决策树-02预剪枝与后剪枝

上文「」的学习中，我们了解了著名的3种决策树算法ID3、C4.5、CART。这3种决策树算法最根本的核心就是根据特征选择离散属性作为节点来搭建树结构，运用搭好的结构进行推理。剪枝(pruning)则就是将搭好的决策树去掉一些「非叶节点」的过程。

2024-08-05 18:26:21 1143

原创《机器学习by周志华》学习笔记-决策树-01决策树流程与划分规则

本书中的「决策树」有时指学习方法，有时指学得的树。

2024-05-10 10:13:54 1127 1

原创《机器学习by周志华》学习笔记-线性模型-03多分类学习与类别不平衡处理

我们在上一节介绍了「线性判别分析（LDA）」，LDA的从二分类任务可以推广到多分类任务中。而现实中常遇到的多分类学习任务。有些二分类的学习方法可以直接推广到多分类，但是更多情况下是基于一些策略，利用二分类学习器来解决多分类的问题。

2024-04-23 17:53:20 805 1

原创《机器学习by周志华》学习笔记-线性模型-02对数几率回归与线性判别分析

上一节我们考虑了线性模型的回归学习，但是想要做分类任务就需要用到上文中的广义线性模型。当联系函数连续且充分光滑，考虑单调可微函数。多分类与二分类的线性判别分析（LDA）

2024-04-17 17:55:44 1256 1

原创《机器学习by周志华》学习笔记-线性模型-01基本形式与线性回归

给定由d个属性描述的示例x：其中每个属性的权重：其中xi是x在第i个属性上的值，线性模型试图学习一个通过属性线性作何来预测的函数，即：用向量形式写成：当w和b的参数学得之后，模型就可以确定。也叫「可理解性」

2024-04-11 18:13:57 970 1

原创《机器学习by周志华》学习笔记-模型评估与选择-04偏差与方差

偏差-方差分解（bias-variance decomposition）」是解释学习器泛化性能的一种重要工具。「偏差」学习器期望预测与真实结果的偏离程度。「方差」同样大小训练集的变动会导致学习器性能变化的度量。「噪声」表达了在当前任务下，学习器所能达到的期望泛化误差的下界。

2024-04-01 13:24:34 580

原创《机器学习by周志华》学习笔记-模型评估与选择-03比较检验法

通过比较检验方法进行假设检验、交叉验证t检验、5✖️2交叉验证、卡方检验等方式比较学习器、模型、算法的性能。

2024-03-21 18:24:00 1996

原创《机器学习by周志华》学习笔记-模型评估与选择-02模型性能度量

本章主要对模型的性能指标错误率、精度（正确率）、查准率（准确率）、查全率（召回率）、F1指标、平衡点、ROC、AUC、代价敏感错误率、代价曲线、期望总体代价等做了详细的描述。

2024-02-29 11:32:18 572

原创《机器学习by周志华》学习笔记-模型评估与选择-01减少误差的方法

训练过程中，努力使「经验误差（训练误差）」最小。

2024-02-22 11:02:17 985

原创 MLOps——模型治理

很难将MLOps与其治理分开。没有治理，就不可能成功地管理模型生命周期、降低风险和大规模交付价值。治理影响一切，从业务如何可接受地利用机器学习模型，到可使用的数据和算法，再到操作、监控和再训练的风格。大规模的MLOps还处于起步阶段。很少有企业在做，做得好的企业更少。虽然治理是提高MLOps有效性的关键，但目前很少有直接应对这一挑战的工具，而且只有零碎的建议。

2023-12-22 19:58:28 1903

原创 MLOps——监控和反馈回路

确保模型在生产环境中正确运行关键系统是否还存在？ CPU、GPU、RAM、网络使用率和磁盘空间是否符合预期？请求是否以预期的速度得到处理？性能层面目的随时间监控模型的相关性关键模型是否仍然是新输入数据的准确表示？它的性能和设计阶段一致吗？

2023-12-19 23:07:16 2056

原创 MLOps——部署到生产

1、引言在ML项目生命周期的更大背景下强调生产部署 2、CI/CD管道2.1、概念CI 持续集成工具：Jenkins CD 持续交付 2.2、目的以更频繁、更快速地发布应用程序，同时更好地控制质量和风险2.3、目标避免将工作合并的不必要努力尽快发现错误或开发冲突2.4、案例（1）构建模型构建模型工件将工件发送到长期储存库运行基本检查冒烟测试健全性检查生成公平性和可解释性报告（评估）（2）部署到测试

2023-12-18 17:57:44 1112

原创 MLOps工具链实战笔记_02

机器学习数据的使用特征工程以及策略，特征的存储以及模型实验的过程、目标等。模型评估的必要性分析、风险分析等。

2023-12-15 11:08:19 378

原创 MLOps工具链的使用注意事项

不同的工具链可能针对不同的机器学习场景和需求，例如数据科学团队可能需要更强大的数据管理和可视化工具，而工程团队可能需要更高效的模型部署和监控工具。模型版本控制：使用模型版本控制工具来管理模型的迭代和发布，确保模型的可靠性和可追溯性。安全性和合规性：确保MLOps工具链的安全性，遵循相关法规和标准，保护用户数据和隐私。监控和报警：建立模型监控和报警机制，实时监测模型的性能和稳定性，及时发现并解决问题。持续改进：根据实际业务需求和反馈，持续优化和改进MLOps工具链，提高效率和性能。

2023-12-14 09:53:22 152

原创机器学习模型概念、应用与开发模型的基础知识

机器学习模型是计算机程序或算法，通过从已有的数据中学习和自动调整参数，可以进行预测、分类或决策的工具。模型的目标是基于输入数据的特征，找到模式、关联和规律，从而在未知数据上进行有效的预测和决策。模型的选择和设计依赖于具体问题的特征和需求，包括数据的类型、数量和质量等因素。预测和回归：模型可以基于历史数据来预测未来的趋势和结果，比如销售预测、股票价格预测等。时间序列分析：模型可以对时间相关的数据进行建模和预测，比如股票价格预测、气象预测等。聚类和分割：模型可以将数据分成不同的组别，比如顾客分群、图像分割等。

2023-12-13 16:41:37 375