机器学习
文章平均质量分 81
页页读
这个作者很懒,什么都没留下…
展开
-
【小技巧】机器学习中可视化高维向量的两种方法PCA和t-SNE,以及其原理介绍和代码示例(附代码)
为了可视化高维数据(比如你的256维向量)在低维空间(通常是2D或3D)的分布,常用的方法包括主成分分析(PCA)和t-SNE。这两种方法可以帮助我们理解数据在高维空间中的内在结构。下面,我会展示如何使用Python的库和matplotlib来可视化这些向量。我将使用PCA和t-SNE两种方法来降维,并在3D平面上展示结果。如果你有标签数据,这将有助于我们看到不同簇的分布。import os""""""# 使用PCA将数据降到3维# 使用t-SNE将数据降到3维。原创 2024-04-12 13:58:12 · 1456 阅读 · 0 评论 -
【查漏补缺】异常检测是生成模型吗?是无监督模型吗?常用的模型有哪些?
自编码器通常由两部分组成:编码器(Encoder)和解码器(Decoder)。编码器的任务是将输入数据压缩成一个低维表示(即潜在空间),而解码器则尝试从这个低维表示中重构原始数据。编码器:可能包含多层,每一层都进一步压缩数据,直到达到一个编码(低维表示)。解码器:结构通常与编码器镜像对称,逐层将编码扩展回原始数据的维度。原创 2024-03-26 10:24:34 · 605 阅读 · 0 评论 -
Failed to initialize NVML: Driver/library version mismatch (解决)
运行nvidia-smi报错原创 2023-07-19 15:03:19 · 1550 阅读 · 0 评论 -
手打SVM公式推导以及利用对偶学习算法求解全过程
手打SVM公式推导以及利用对偶学习算法求解全过程视频地址以下是看完 视频的笔记,涉及 SVM公式的推导、求解全过程:svm三宝:间隔、对偶,核函数。SVM分为:硬间隔SVM、软间隔SVM、核函数。公式推导:{maxmargin(w,b)s.t.yi(wTxi+b)>0,(i∈1,2,...,N)\left \{\begin{aligned}& max margin(w, b) \\& s.t. \quad y_i(w^Tx_i+b) > 0, (i \in原创 2020-09-24 11:44:46 · 481 阅读 · 0 评论 -
最大似然估计法与贝叶斯估计最容易理解的解释
最大似然估计法与贝叶斯估计最容易理解的解释最大似然概率:已知参数估计事件发生的可能性,例如已知硬币“花”朝上的概率为 p=0.6,则求我抛一次硬币出现“花”的可能性。似然:根据样本分布求参数,例如根据100次抛硬币结果估计“花”朝上的概率。似然一般都是针对多组实验来说的,因为它要根据这多组实验拟合出一个分布,根据分布求最大值,就是我们所要求的最大似然,这个最大值所对应的的参数就是我们所要求的参数。贝叶斯估计贝叶斯估计:就是全概率公式。条件概率:P(B∣A)=P(A⋂B)P(A)P(B|A) =原创 2020-05-17 11:45:06 · 432 阅读 · 0 评论 -
一句话解释最小二乘法
最小二乘法最小二乘法就是最小化平方和的方法。对于样本集 {x1,x2,...,xN}\{x_1, x_2,...,x_N\}{x1,x2,...,xN}中的每个样本,它与预测值 y~\tilde yy~之间会有一个误差 ϵi=xi−y~(i∈1,...N)\epsilon_i = x_i - \tilde y \qquad (i\in 1,...N)ϵi=xi−y~(i∈1,...N),则这些误差满足一个分布,数学家高斯证明了这个分布为正态分布,从而证明了最小二乘法的合理性。最小二乘原创 2020-05-17 10:53:34 · 267 阅读 · 0 评论 -
一句话解释ID3\C4.5算法
ID3\C4.5算法ID3算法ID3算法,ID的意思是 Iteritive Dichotomiser(迭代二分类器)。它的基本原理是对所有特征求信息增益,选出信息增益最大的特征,按照该特征对数据进行分组 D1,D2D_1, D_2D1,D2(二分类,所以分了两组),然后,如果每组中所有的样本都属于同一类,则创建该节点为叶子节点;否则,递归上面的步骤,一直到所有节点都为叶子节点结束递归。C4.5算法C4.5(Classifier4.5) 算法是对 ID3 算法的改进,就是将 ID3中的信息增益改原创 2020-05-17 10:52:45 · 345 阅读 · 0 评论 -
【熵系列-3】相对熵(或者 KL散度)
【熵系列-3】相对熵(或者 KL散度)上一篇文章我们简单介绍了信息熵的概念,知道了信息熵可以表达数据的信息量大小,是信息处理一个非常重要的概念。对于离散型随机变量,信息熵公式如下:H(p)=H(x)=Ex∼p(x)[−logp(x)]=−∑i=1np(x)logp(x) H(p) = H(x) = E_{x \sim p(x)}[-log p(x)] = - \sum_{i=1}^n p(x)log p(x) H(p)=H(x)=Ex∼p(x)[−logp(x)]=−i=1∑np(x)logp(x)转载 2020-05-15 18:20:36 · 473 阅读 · 0 评论 -
【熵系列-2】信息熵
【熵系列-2】信息熵熵的定义:根据维基的定义,熵的定义如下:熵是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。直白地解释就是信息中含的信息量的大小,其定义如下:H(X)=E[I(X)]=E(−ln(P(X)))H(X) = E[I(X)] = E(-ln(P(X)))H(X)=E[I(X)]=E(−ln(P(X)))其曲线如下图:上一篇文章我们简单介绍了香农信息量的概念,由香农信息量我们可以知道对于一个已知概率的事件,我们需要多少的数据量能完整地把它表达清楚,不与转载 2020-05-15 18:18:06 · 303 阅读 · 0 评论 -
【熵系列-1】香农信息量
【熵系列-1】香农信息量如果是连续型随机变量的情况,设ppp为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,则随机变量X在X=x处的香农信息量定义为:−log2p(x)=log21p(x) -log_2 p(x) = log_2\frac{1}{p(x)}−log2p(x)=log2p(x)1这时香农信息量的单位为比特。(如果非连续型随机变量,则为某一具体随机事件的概率,其他的同上)香农信息量用于刻画消除随机变量在处的不确定性所需的信息量的大小。上面是香农信息量的完转载 2020-05-15 18:15:35 · 478 阅读 · 0 评论