
机器学习
文章平均质量分 83
模拟IC和AI的Learner
如果你不能用可视化的方式看到事情的过程和结果,那么你就很难对这个事情有认知,认知就是直觉,解析的东西可以让你理解,但未必能让你形成直觉,因为他太反直觉了。
展开
-
【机器学习chp14 — 总】生成式模型大全—扩散模型Diffusion、生成对抗网络GAN、变分自编码器VAE(草履虫都能看懂,超详细分析,易于理解,推导严谨,一文就够了)
在大多数传统任务中,神经网络被视为一个确定性的映射例如,在图像分类中,输入图像(例如尺寸为的RGB图像)经过神经网络映射到一个固定类别集合这意味着给定一个输入图像,模型输出一个类别标签。从确定性映射到概率映射:传统神经网络映射被扩展为,允许输出多样化结果。模型多样性与创造性:通过引入随机性(例如随机变量)生成不同样式的输出,从而满足如图像生成、文本生成等任务的“创造力”需求。极大似然估计与KL散度:利用极大似然原理最大化真实数据的似然,等价于最小化真实分布与模型分布间的 KL 散度。原创 2025-03-21 13:14:51 · 980 阅读 · 0 评论 -
【机器学习chp14 — 4】生成式模型—扩散模型 Diffiusion model(超详细分析,易于理解,推导严谨,一文就够了)
VAE视角下的扩散模型将数据生成过程分解为多个隐变量 的状态转移,前向过程作为编码器,后向过程作为解码器。与VAE类似,通过构造变分下界(ELBO)对整体对数似然进行优化。数学分解与目标函数下界由重构项和多步KL散度项组成,每一步的KL项均可解析计算。参数化的后向分布通过噪声预测器实现,使得生成过程仅依赖于当前状态 的信息。优势与改进由于每步变化较小,简单的高斯假设足以准确描述局部变化,从而使得扩散模型在捕捉复杂数据分布上较传统VAE更具优势。原创 2025-03-20 19:00:00 · 960 阅读 · 0 评论 -
【机器学习chp14 — 3】生成式模型—生成对抗网络GAN(超详细分析,易于理解,推导严谨,一文就够了)
直观解释想象有两堆“土堆”,其中一堆代表真实数据分布,另一堆代表生成数据分布。Wasserstein 距离即为将一堆“土”重新搬运成另一堆“土”所需的最小运输成本,其中运输成本通常与搬运的距离成正比。这种解释突出了 Wasserstein 距离对分布“差异”的几何度量,相较于传统的散度(如 JS 散度),在衡量不重叠或分布支持集几乎无交集的情形下能提供更平滑、有效的梯度信息。正式定义对于两个概率分布(真实数据分布)和(生成数据分布),Wasserstein 距离定义为:其中,原创 2025-03-20 12:28:56 · 969 阅读 · 5 评论 -
【机器学习chp14 — 2】生成式模型—变分自编码器VAE(超详细分析,易于理解,推导严谨,一文就够了)
生成式模型的目标是学习数据的分布,从而能够生成与真实数据相似的新样本。变分自编码器(Variational Autoencoder, VAE)是其中一种重要的生成模型,它将传统自编码器的框架与概率模型和变分推断方法相结合,不仅能够重构输入数据,还能从隐变量空间中生成新的数据。与对抗生成网络(GAN)相比,VAE具有明确的概率解释和连续平滑的潜在空间,使其在一些需要不确定性估计或潜在特征表达的任务中表现突出。输入数据:从训练集中获取样本(如图像、文本等)。编码器(Encoder):将。原创 2025-03-19 19:37:25 · 1133 阅读 · 0 评论 -
【机器学习chp14 — 1】生成式模型概述和主要思想(超详细分析,易于理解,推导严谨,一文就够了)
在大多数传统任务中,神经网络被视为一个确定性的映射例如,在图像分类中,输入图像(例如尺寸为的RGB图像)经过神经网络映射到一个固定类别集合这意味着给定一个输入图像,模型输出一个类别标签。从确定性映射到概率映射:传统神经网络映射被扩展为,允许输出多样化结果。模型多样性与创造性:通过引入随机性(例如随机变量)生成不同样式的输出,从而满足如图像生成、文本生成等任务的“创造力”需求。极大似然估计与KL散度:利用极大似然原理最大化真实数据的似然,等价于最小化真实分布与模型分布间的 KL 散度。原创 2025-03-19 16:54:01 · 820 阅读 · 0 评论 -
【机器学习chp13--(下)】人工神经网络—优化算法
Batch Normalization 通过对每一层输入进行归一化,既缓解了内部协变量偏移问题,又有助于加速收敛、提高训练稳定性和一定程度上的正则化效果。其实现方式简单而有效,但在应用时也需要注意小批量大小、序列模型的特殊性以及训练与推理阶段统计量的一致性。总的来说,BN 已成为深度学习中不可或缺的一环,为构建更深更复杂的网络模型提供了有力支持。跳跃连接作为深度网络设计中的一项重要技术,主要通过提供直接的信息传递路径,解决了深层网络中梯度消失、信息衰减以及训练不稳定等问题。原创 2025-03-16 00:26:33 · 750 阅读 · 0 评论 -
【机器学习chp13--(上)】人工神经网络(MLP结构 + KAN结构 + 卷积神经网络)
卷积神经网络之所以在图像处理上更为优秀,主要在于它利用了图像数据的局部性和空间结构,通过局部感受野和参数共享机制大幅降低模型复杂度,并通过多层结构逐步抽象出高层次特征。同时,平移不变性和池化层的应用使得CNN对于图像中的位移、旋转以及噪声具有较好的鲁棒性。正是这些特点,使得卷积神经网络成为图像分类、目标检测、图像分割等任务中的主流模型。节点向量(Knot Vector)节点向量是一系列非递减的实数序列,记为p 是曲线的阶数(通常阶数 p+1 表示多项式的次数,如三次曲线 p=3)。原创 2025-03-15 13:05:19 · 1062 阅读 · 0 评论 -
【机器学习chp12代码示例】半监督学习
半监督生成模型在有标签数据上的准确率: 1.0。无标签样本上的准确率: 0.9625。有标签数据数: 199。有标签样本数量: 70。收敛于迭代次数: 6。无标记样本数: 80。原创 2025-03-11 10:47:57 · 574 阅读 · 0 评论 -
【机器学习chp12】半监督学习(自我训练+协同训练多视角学习+生成模型+半监督SVM+基于图的半监督算法+半监督聚类)
半监督学习的定义和基本思想半监督学习(Semi-Supervised Learning,SSL)结合了监督学习和无监督学习的特点。它的基本思想是使用少量的标注数据和大量的无标注数据进行学习。标注数据相对较贵且稀缺,而无标注数据通常可以轻松获得,因此半监督学习能够在实际应用中发挥巨大作用。监督学习:依赖大量标注数据,通过标注数据训练模型进行分类或回归任务。无监督学习:使用未标注数据进行训练,主要用于聚类或数据表示学习,不依赖标签。原创 2025-03-10 12:09:48 · 724 阅读 · 0 评论 -
【机器学习chp11代码示例】聚类
此示例旨在说明k-means将产生不直观的、可能是意外的聚类的情况。在前三幅图中,输入的数据不符合一些隐含的假设,即k均值生成,因此产生了不理想的聚类。Davies-Bouldin 指数 (DBI): 0.6619715465007465。Calinski-Harabasz 指数 (CHI): 561.62775662962。Dunn 指数 (DI): 0.09880739332807607。Rand 指数 (RI): 0.8797315436241611。混淆矩阵: [[ 0 50 0]原创 2025-03-08 18:02:28 · 769 阅读 · 0 评论 -
【机器学习chp11】聚类(K均值+高斯混合模型+层次聚类+基于密度的聚类DBSCAN+基于图的聚类+聚类的性能评价指标)
聚类的原理与方法聚类是非监督学习中的一项核心任务,目的是将数据分成不同的簇,每个簇内部的样本相似度较高,簇间的样本差异较大。基于中心的聚类:通过计算每个簇的中心点(例如K-means聚类),然后将样本分配到最近的中心点。这种方法假设数据簇呈现出某种形式的“圆形”结构,适合处理分布比较均匀的数据。基于密度的聚类:通过识别数据点密度的区域来进行聚类,DBSCAN是其中的代表方法。密度聚类的优点在于可以识别形状较为复杂的簇,并且能够自动识别噪声点。层次聚类。原创 2025-03-06 22:47:09 · 798 阅读 · 0 评论 -
【机器学习chp10代码示例】降维
【代码】【机器学习chp10代码示例】降维。原创 2025-03-05 20:26:36 · 301 阅读 · 0 评论 -
【机器学习chp10】降维——(核化)PCA + MDS + lsomap + 拉普拉斯特征映射 + t-NSE + UMAP
数据映射给定原始数据集我们引入非线性映射将数据映射到高维(或无限维)的特征空间。核函数定义核函数为映射后的内积例如,对于径向基函数(RBF)核有数据映射:利用非线性函数将原始数据映射到高维特征空间。构造核矩阵:通过核函数构造。中心化:利用公式, 对核矩阵进行中心化处理。特征值分解:求解,获得特征向量和特征值。数据投影:利用特征向量,将新数据点通过核函数投影到低维空间,实现降维表示。原创 2025-03-02 19:55:56 · 1106 阅读 · 0 评论 -
【机器学习chp9代码示例】集成学习算法大全:Bagging(Bagging+随机森林+极度随机森林)、Boosting(AdaBoost+GBDT+XGB+LightGBM+CatBoost)
对大规模数据效果好。原创 2025-02-28 23:32:31 · 553 阅读 · 0 评论 -
【机器学习chp7代码示例】SVM分类和回归、线性核和径向基核
【代码】【机器学习chp7代码示例】SVM分类和回归、线性核和径向基核。原创 2025-02-24 22:49:45 · 156 阅读 · 0 评论 -
【机器学习chp6代码示例】逻辑回归,样本不均衡时的上采样,分类模型评估方法
会执行与交叉验证相同的过程,但它返回的是每个样本的预测结果。每个样本的预测是由对应的验证集预测得到的。这个方法的主要目的是获取交叉验证的预测结果,以便我们可以进一步分析或可视化这些预测,尤其是在模型调优或模型比较时非常有用。准确率-召回率曲线是针对两分类的,本例中为3分类,所以三种类别分别绘制准确率-召回率曲线。使用生成合成样本来进行过采样补充数目少的类的样本:使用SMOTE(合成少数类过采样技术)是用来指定模型评估指标的参数。)默认是为二分类问题设计的,而此例的目标数据。参数来处理多分类情况。原创 2025-02-22 23:55:07 · 688 阅读 · 0 评论 -
【机器学习chp5代码示例】线性回归+岭回归+Lasso回归+LAR回归+弹性回归+胡伯Huber损失回归
本文使用的数据集是:加利福尼亚住房数据集(回归)原创 2025-02-22 13:20:36 · 311 阅读 · 0 评论 -
【机器学习chp4代码示例】特征工程大全
本文使用从 Data Hackathon 3.x AV hackathon 中获取数据集,数据集介绍:Data Hackathon 3.x 是由 Analytics Vidhya 主办的一次数据科学竞赛,旨在为全球的数据科学家提供一个展示技能的平台。ID:每条记录的唯一标识符。Gender:申请人的性别。City:申请人所在城市。:申请人的月收入。:申请人的出生日期。:申请人提交信息的日期。:申请人申请的贷款金额。:申请贷款的期限(年数)。:已有的每月等额还款(EMI),如果有的话。原创 2025-02-16 23:55:55 · 1051 阅读 · 0 评论 -
【机器学习chp3代码示例】Fisher线性判别,感知机,最小平方误差分类器,广义线性判别函数,分段线性判别函数,最小距离分类器,CART树
最小距离分类器是一种特殊情况下的分类方法,其假设各类别服从正态分布,且具有相同的协方差矩阵和相等的先验概率。决策规则为,将测试样本归类为距离其最近的类别中心。假设两类样本的中心分别为和,则决策面为两类中心连线的垂直平分面。原创 2025-01-26 00:09:40 · 766 阅读 · 0 评论 -
【机器学习chp2代码示例】朴素贝叶斯分类器(基础版+引入代价+引入拒识),高斯判别分析(线性LDA+二次QDA+原版GDA)
代价敏感学习是指在模型训练和预测时考虑不同类型错误的代价。在高斯朴素贝叶斯中,我们可以通过调整决策阈值或根据代价矩阵调整预测结果来实现代价敏感学习。通过计算假阳性和假阴性的代价,并根据代价选择最优预测,可以有效减少高代价错误。这种方法在一些特定场景下(如金融欺诈检测、医疗诊断等)非常有用,因这些场景中不同类型错误的代价差异很大。高斯判别分析是基于高斯分布假设的分类方法,它通过建立类别条件概率分布来做出分类决策。其基本假设是每个类别的特征服从高斯分布,且各类别之间的数据是独立的。原创 2025-01-20 23:35:11 · 629 阅读 · 0 评论 -
【机器学习chp9】集成学习
(1)Bagging与Boosting的区别Bagging(并行):多个基学习器同时训练,各自独立,最终通过投票或平均的方式融合。Boosting(顺序):多个基学习器按顺序训练,每个学习器通过修正前一个学习器的错误逐步提高性能。公式。原创 2024-12-11 13:07:51 · 778 阅读 · 0 评论 -
【机器学习chp8】统计学习理论
本文第一部分介绍结构风险最小化,也就是期望风险最小化,但期望风险公式中的是基于全集的,是不知道的,无法计算。只能通过训练样本近似期望风险,即只能经验风险来近似期望风险。数据集毕竟不是全集,由此带来的过拟合问题是算法需要关注的最关键的点。文中通过Hoeffding不等式量化了训练误差与测试误差之间的偏差(1.6),但这种量化只适用于有限的假设空间,对于无限假设空间,不能使用Hoeffding不等式。要将假设空间的复杂度(如VC维)引入到不等式中,从而得到无限假设空间下的训练误差与测试误原创 2024-11-26 17:59:04 · 1088 阅读 · 0 评论 -
【机器学习chp7】SVM
参考1,笔记SVM笔记.pdf参考2:王木头视频。原创 2024-11-23 18:01:22 · 888 阅读 · 0 评论 -
【机器学习chp6】对数几率回归
本文遗留问题:(1)案例分析未完成。(2)分类模型评价指标实验需回顾。目录前言一、对数几率回归模型1、分类任务(1)分类任务概述(2)两类分类任务2、对数几率回归模型(1)Sigmoid 函数(2)对数几率回归模型二、对数几率回归的损失函数1、0/1损失2、交叉熵损失3、对数几率回归模型的目标函数(1)对数几率回归模型的目标函数(2)对数几率回归中正则化的必要性三、对数几率回归的优化求解1、梯度下降求解(1)目标函数形式(2)损失函数梯度(3)Hessian矩阵正定——逻辑回归极小值是最小值。原创 2024-11-21 16:05:01 · 1242 阅读 · 0 评论 -
【机器学习chp5】线性回归
本文遗留问题:(1)第七部分案例分析未完成。(2)回归任务的性能指标评价还只是很简单的理解,自我还没能力高效地得到回归任务进行性能指标。(3)线性回归优化算法中的坐标轴下降理解不够深入目录前言一、回归任务简介二、线性回归模型三、回归任务的损失函数1、L2损失函数(1)定义(2)L2损失函数的概率解释(3)残差分布2、胡伯(Huber)损失函数(1)Huber损失函数的定义(2)Huber损失的优缺点(3)与L1和L2损失的对比(4)Huber损失的图示理解。原创 2024-11-20 02:09:28 · 1017 阅读 · 0 评论 -
【机器学习chp4】特征工程
特征工程是原始数据与学习器的连接器。在解决问题时,首先进行数据探索(不属于特征工程的范畴),根据原始数据的特性初步确定学习器的类型,原始数据可能不能直接输入到学习器(例如字符串类型数据不能直接送入到线性分类模型)。然后要进行数据预处理,让数据更符合模型的输入类型或更适合所选择的模型,例如让数值型数据规范化或非数值型数据数值化等。数据处理完成后就要进行特征的选择,如果你是专家,一定情况下可以自己构造特征,但跟一般的情况是从数据中抽取特征,很多数据直接提供的特征的维度都是很高的,例如图像数据的原创 2024-11-19 00:29:32 · 783 阅读 · 0 评论 -
【机器学习chp3】判别式分类器:线性判别函数、线性分类器、广义线性分类器、分段线性分类器
在线性分类问题中,我们可以通过一个线性判别函数来划分样本属于不同的类别。对于一个二维空间的两类分类问题,线性判别函数可以表示为:其中,是样本的特征向量, 和是特征的权重,是偏置项。通过对的符号来划分类别:i、如果,则分类为ii、如果,则分类为线性分类器是一种用于将数据样本分为不同类别的分类模型,其目标是在样本空间中找到一个超平面,将不同类别的数据分开。具体来说,对于给定的样本集,线性分类器试图确定一个线性判别函数:其中,是输入特征向量,是待求的参数向量。原创 2024-11-17 02:07:17 · 961 阅读 · 0 评论 -
【机器学习chp2】贝叶斯最优分类器、概率密度函数的参数估计、朴素贝叶斯分类器、高斯判别分析。万字超详细分析总结与思考
本文的《一》《二》属于两个单独的知识点:共轭先验和Laplace平滑,主要因为他们在本文的后续部分经常使用,又因为他们是本人的知识盲点,所以先对这两个知识进行了分析,后续内容按照标题中的顺序依次进行,观看时可以先跳过《一》《二》,后文遇到相关共轭先验和Laplace平滑的知识再回头看他们。另一个更重要的点是,本文用到了大量gpt的分析,部分我添加了我的理解并进行重要标注,还有一部分我想优化gpt的回答,但鄙人不才,gpt的分析太好了,条理清晰又通俗易懂,我改不了就直接放上去了。原创 2024-11-13 23:04:08 · 1044 阅读 · 0 评论 -
【王木头】最大似然估计、最大后验估计
本质区别最大似然估计MLE只依赖数据的似然,不使用先验,是一种频率派的估计方法。最大后验估计MAP同时考虑数据的似然和参数的先验信息,是一种贝叶斯派的估计方法。总结公式最大似然估计MLE最大后验估计MAP在有先验信息的情况下,MAP 能够更好地利用先验信息对估计进行约束,而 MLE 则完全依赖观测数据。t=O83At=O83AX%5Ctheta%5Cthetap%28X%29贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?原创 2024-11-11 01:49:22 · 778 阅读 · 0 评论 -
【王木头 · L1、L2正则化】三个角度理解L1、L2正则化的本质
小权重抑制高频成分的原因非线性结构的影响:小权重限制了神经网络的非线性拟合能力,尤其对高频变化的拟合能力影响更大。平滑效果:正则化引入小权重会迫使模型选择更平滑的拟合方式,从而更容易保留低频结构,抑制高频噪声。相对抑制:虽然低频成分也被削弱,但相比高频成分,它受到的影响较小,从而使得模型能够聚焦于数据的主要趋势。类似于低通滤波:小权重类似于低通滤波器,对频率越高的成分抑制越强。综上所述,小权重确实抑制了所有频率的成分,但对高频成分的抑制更为显著,从而达到了抑制噪声和提升泛化能力的效果。原创 2024-11-10 23:14:18 · 1070 阅读 · 0 评论 -
【王木头·梯度下降法优化】随机梯度下降、牛顿法、动量法、Nesterov、AdaGrad、RMSprop、Adam
动量法,即类似于pid中的积分项,有抑制震荡、加快收敛速度的功能梯度下降时如果出现发生震荡或学习速率慢,可采用动量法优化路径,如图橙色线在水平维度学习速率慢,在竖直维度震荡,采用动量法优化后如图中绿色线。动量法的核心思想是通过对梯度的加权平均(或者说对梯度的动量)来更新模型的参数。具体来说,它将梯度更新中的历史信息考虑进来,从而避免了在局部极小值和鞍点附近的振荡,并且在某些方向上能够加速收敛。动量法的更新公式如下:表示第次迭代的动量(即前几次梯度的累积);原创 2024-11-09 01:57:06 · 1093 阅读 · 0 评论 -
【王木头】sigmoid和softmax有什么区别,softmax的本质是最大熵?
本文从sigmoid和sofmax的形式是因为最大熵原理,从而分析到机器学习的本质,使我对机器学习的理解更加深入。原创 2024-11-08 11:03:24 · 1047 阅读 · 0 评论 -
【贝叶斯公式】贝叶斯公式、贝叶斯定理、贝叶斯因子,似然比
贝叶斯公式的本质在于它提供了一种。具体来说,贝叶斯公式描述了后验概率(即在观察到某些证据后更新的概率)与先验概率(即在没有观察证据之前的概率)以及似然性(即在给定某种假设条件下观察到证据的概率)之间的关系。贝叶斯公式可以表示为:其中:P(A∣B) 是,即在事件 B 发生后,事件 A 发生的概率。P(A) 是,即在观察到事件 B 之前,事件 A 发生的概率。P(B∣A) 是,即在事件 A 发生的条件下,事件 B 发生的概率;P(B) 是边际概率,即事件 B 发生的总概率。本质:贝叶斯公式的。原创 2024-11-05 17:14:10 · 1440 阅读 · 0 评论 -
【王木头·从感知机到神经网络】
根据身高体重判断胖瘦的感知机。1、根据已知样本训练出一条直线,用于对非训练样本进行分类,这条直线就是感知机模型。三维情况下感知机模型是一个平面。原创 2024-10-12 21:48:54 · 823 阅读 · 0 评论 -
【机器学习】绘图中使用plt(图像全局)和axes对象(局部子图)的区别
使用axes对象和plt的区别主要体现在图形绘制的灵活性和控制能力上。原创 2024-09-27 14:09:42 · 368 阅读 · 0 评论 -
【线性代数】正定矩阵,二次型函数
本文主要介绍正定矩阵,二次型函数,及其相关的解析证明过程和各个过程的可视化几何解释(深蓝色字体)。原创 2024-09-07 17:19:06 · 1869 阅读 · 0 评论 -
【几何角度】感知机
本质:将n维空间中的一些点线性投影到一维,在一维轴上找一个阈值对原点进行二分类。原创 2024-05-28 17:24:03 · 387 阅读 · 0 评论 -
【机器学习】二分类模型评估方法大全
曲线是二元分类中的常用评估方法它与精确度/召回曲线非常相似,但ROC曲线不是绘制精确度与召回率,而是绘制与要绘制ROC曲线,首先需要使用函数计算各种阈值的TPR和FPR我的理解:TPR和FPR既是两个类别分对的数量占实际类别总数的比例。原召回率既是一种类别分对的数量占实际类别总数的比例,索引TPR既是召回率。原创 2024-01-28 23:56:48 · 1918 阅读 · 2 评论 -
【sklearn练习】模型评估
2、使用交叉验证。原创 2024-01-11 01:37:36 · 1323 阅读 · 0 评论 -
【机器学习】模型保存
【代码】【机器学习】模型保存。原创 2024-01-12 01:10:06 · 540 阅读 · 0 评论