自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(658)
  • 资源 (3)
  • 收藏
  • 关注

原创 快速排序(Quick Sort)的挖坑法实现

【代码】快速排序(Quick Sort)的挖坑法实现。

2026-06-14 21:31:24 197

原创 什么是嵌入空间?听起来高大上,其实。。。

这些向量所在的向量空间,就可以叫嵌入空间。它的核心作用是:让机器能够用距离、角度、内积等数学方式来表达对象之间的相似性、差异性和结构关系。所以嵌入空间不是唯一的,也不是天然固定存在的。更准确地说:数据本身可能有某种潜在结构,但嵌入空间是通过设计和学习得到的。同一批数据,用不同模型、不同损失函数、不同训练目标,会得到不同的嵌入空间。可以简单理解为:把原本不好直接计算的对象,映射成向量以后所在的空间。在深度学习中,嵌入空间通常是由神经网络学习出来的。这说明模型把语义相近的对象放在了空间中相近的位置。

2026-06-13 23:00:33 254

原创 什么是HTML PPT

HTML PPT = 用网页技术做的幻灯片,浏览器直接打开、跨设备不乱版、AI生成快、适合技术/线上场景。要不要我给你一个可直接复制运行的最简HTML PPT代码,你双击就能看到效果?

2026-06-10 16:31:00 248

原创 深度学习中的MLP层

由多层神经元全连接组成的网络结构:上一层每一个神经元,都和下一层所有神经元建立连接,没有局部感受野、没有权重共享。

2026-06-07 11:40:09 350

原创 sklearn中不同交叉验证方法的场景适配

【代码】sklearn中不同交叉验证方法的场景适配。

2026-05-27 11:55:11 250 1

原创 sklearn 中所有交叉验证数据集划分方式完整总结

回归→ KFold分类分组数据时间数据。

2026-05-27 11:52:31 235

原创 粒子群优化算法(PSO)超详细讲解 + 完整公式推导

设优化问题为D维NNNDDD。

2026-05-09 07:30:03 565

原创 遗传算法中的轮盘赌选择法(Roulette Wheel Selection)

设种群有 (N) 个个体,第 (i) 个个体适应度为 (f_i)👉 改进:排序选择、锦标赛选择(教学里常用轮盘赌作为基础原理)。适应度越高,占区间越大,被选中概率越高。总适应度 (F = 30)

2026-05-07 17:48:00 252

原创 sklearn.utils.validation.check_random_state 详解

如果你写带随机行为的工具函数,强烈建议用它统一处理种子# 标准化处理随机种子# 使用返回的 rng 生成随机数# 调用:传整数 → 可复现作用:统一校验随机数种子,返回标准实例,保证随机性可复现。输入:支持None/ 非负整数 /实例。使用:自定义随机函数、调用 sklearn 模型时都可以用,是实现可复现实验的核心工具。优势:安全、无副作用、兼容 sklearn 全生态。两个导入路径,指向同一个函数功能无任何区别。

2026-04-30 17:41:31 411

原创 机器学习模型中的偏置项(bias / 截距项)到底有什么用?

偏置项bbb。

2026-04-18 12:07:05 412

原创 Python代码中if __name__ == ‘__main__‘的作用是什么?

这篇文章深入浅出地讲解了Python中if __name__ == '__main__'的作用原理和使用场景。文章首先解释了__name__这个特殊变量的两种取值情况:直接运行时等于'__main__',被导入时等于模块名。然后通过具体代码示例,展示了该语句如何控制代码块仅在直接运行时执行。最后总结了三个实际开发中的主要用途:避免测试代码意外执行、区分模块功能与脚本运行、编写可独立运行又能被导入的工具文件。全文用通俗易懂的语言和示例,帮助读者理解这个Python编程中的经典语句。

2026-04-15 10:04:47 258

原创 Anaconda 的powershell和Windows的powershell有什么不同?

Anaconda PowerShell与Windows PowerShell的核心区别在于Conda环境集成:前者自动加载Conda并激活(base)环境,可直接使用conda命令;后者需手动初始化。两者底层相同,Anaconda版启动稍慢但开发便捷,原生版更纯净快速。可通过conda init命令实现两者功能切换,使用时需注意系统脚本执行权限设置。

2026-04-15 09:20:50 233

原创 人工智能导论 - 第3章 有监督学习进阶实验

hθxθ0θ1x1hθ​xθ0​θ1​x1​θ0\theta_0θ0​为偏置项,θ1\theta_1θ1​为权重,xxx为输入特征。最小二乘法与梯度下降法的区别:逻辑回归为什么属于分类算法:KNN算法中K值大小对结果的影响:本次实验收获与难点:这份完整的Jupyter Notebook实验文档完全满足你的教学需求,包含实验目的、要求、准备,四大核心任务均配备。

2026-04-14 17:17:57 405

原创 线性回归与逻辑回归:同为凸函数,为何一个有解析解、一个没有?

模型目标函数凸性梯度=0 得到有无解析解线性回归平方损失(二次)凸线性方程组有逻辑回归交叉熵 + sigmoid凸非线性方程组无软 SVM/线性 SVM合页损失凸非线性/含约束无凸不凸决定有没有全局最优,求导后是不是线性方程,才决定有没有解析解。如果你需要,我可以把逻辑回归梯度推导、Hessian 半正定证明、以及为什么非线性方程无闭式解,用更数学的形式完整写一遍。全局最优存在性,梯度方程是否为线性决定解析解存在性。

2026-04-14 09:55:16 379

原创 Python实验报告

Python 科学计算库、机器学习库与文件数据处理综合实操。,学生打开就能写代码,你要我现在生成吗?我可以直接把上面内容。

2026-04-04 12:07:46 478

原创 Anaconda 本质解析

Anaconda 核心是包+环境管理器,而非编程语言/IDE,解决科研中环境兼容的核心痛点。其灵魂是 Conda,能隔离不同项目的依赖,保证代码可复现(国自然/科研关键要求)。预装海量数据科学包,是人工智能/数据分析方向科研的“标配工具”。

2026-03-17 16:05:59 75

原创 Jupyter使用简介

可以这样开场:我们之前装了Python解释器、可能也装了PyCharm这类IDE,但为什么还要学Jupyter?Jupyter(原名IPython Notebook)本质是一个交互式的网页版Python开发工具——你可以把它理解成“带代码运行功能的在线笔记本”:一边写代码、一边运行代码、还能一边写文字说明/公式/图片,代码和笔记完全融合在一起。核心定位:Jupyter是交互式网页版Python工具,优势是“代码+笔记”混排、分段运行,适合新手学习和做数据分析;核心操作。

2026-02-27 11:45:51 716

原创 范数(Norm) 全面解析:定义、种类、机器学习应用及PyTorch实现

范数是向量空间中对向量(或矩阵)的“长度/大小/模”的一种量化度量,是欧几里得空间中向量模长的推广(欧几里得模长是范数的特殊情况)。严格来说,一个函数∣∣⋅∣∣V→R∣∣⋅∣∣V→RVVV是向量空间,RR^+R是非负实数)要被称为范数,必须满足以下3条公理非负性∣∣x∣∣≥0∣∣x∣∣≥0,且仅当xxx为零向量时,∣∣x∣∣0||x|| = 0∣∣x∣∣0;齐次性:对任意标量α\alphaα∣∣αx∣∣。

2026-02-06 16:46:51 1050

原创 torch.distribution函数详解

操作方法说明定义分布dist = DistributionClass(参数)如采样生成指定形状的样本,支持批量概率计算计算x的对数PDF/PMF(数值更稳定)概率计算还原为原始PDF/PMF值分布差异计算两个分布的KL散度核心作用是PyTorch中概率建模的核心模块,支持连续/离散分布的采样、概率计算,且兼容自动微分;关键用法连续分布(Normal/Uniform):关注PDF和样本分布的连续性;离散分布(Binomial/Categorical):关注PMF和类别/次数的离散性;

2026-02-05 17:05:18 528

原创 Pytorch中的直方图

直方图核心:将数据划分为连续区间,统计每个区间的频数,直观展示数据分布。PyTorch 实现连续数据:用计算直方图频数,需指定binsminmax;离散数据:用更高效(无需划分区间)。可视化:结合matplotlib将 PyTorch 计算的频数绘制成柱状图,能直观看到数据的分布特征(如正态分布的钟形、离散数据的分布比例)。

2026-02-05 16:55:33 398

原创 Pytorch中的众数

核心定义:众数是一组数据中出现次数最多的数值,是描述数据集中趋势的统计量(和均值、中位数并列)。PyTorch 用法计算张量众数,指定dim可按维度计算,返回“众数值+首次出现索引”。特殊规则:存在多个众数时,PyTorch 会返回最先出现的那个数值。

2026-02-05 16:16:52 184

原创 Pytorch中统计学相关的函数

可以指定维度进行沿该维度的最大值索引计算,若不指定维度则返回展平后张量的最大值的索引。可以指定维度进行沿该维度的最小值索引计算,若不指定维度则返回展平后张量的最小值的索引。可以指定维度进行沿该维度的均值计算,若不指定维度则返回所有元素的均值。可以指定维度进行沿该维度的乘积计算,若不指定维度则返回所有元素的乘积。可以指定维度进行沿该维度的求和计算,若不指定维度则返回所有元素的和。可以指定维度进行沿该维度的最大值计算,返回最大值和对应的索引。可以指定维度进行沿该维度的最小值计算,返回最小值和对应的索引。

2026-02-05 16:07:19 162

原创 Tensor的比较运算

Tensor的比较运算是指对张量(Tensor)中的元素进行逻辑比较,返回一个布尔类型的张量或标量。常见的比较运算符包括等于、不等于、大于、小于等。这些运算通常用于条件筛选、掩码生成或逻辑判断。

2026-02-05 15:20:06 93

原创 用 PyTorch 库创建了一个随机张量,并演示了多种张量取整和分解操作

生成一个 2x2 的随机张量,元素值均匀分布在 [0,1) 区间。向上取整(天花板函数),输出不小于原数的最小整数。将张量每个元素乘以 10,使值域变为 [0,10)。向下取整(地板函数),输出不大于原数的最大整数。计算每个元素除以 2 的余数。截断小数部分(向零取整)。四舍五入到最接近的整数。

2026-02-05 15:08:52 124

原创 ChatGPT提示词大全

用英文将所有句子的过渡词和连接词替换为最基础、最常用的词语,尽量使用简单、直接的表达方式,避免使用复杂或生僻的词汇,尽量把逗号多的句子融成一句话,删掉逻辑联系词,确保句子之间的逻辑关系清晰,删掉文末总结的部分。

2026-02-03 22:08:16 79

原创 C++实现在数组中找到重复元素及其出现的次数。

双重循环法:逻辑简单、无需额外库,适合新手理解核心思想,但效率低(On2O(n^2)On2),仅适用于小规模数据。哈希表法:基于,效率高(OnO(n)On),是实际开发中的首选,支持整型、字符串等多种类型。核心要点:统计重复元素的关键是“计数+去重”,哈希表通过键的唯一性天然实现去重,双重循环则需手动标记已统计元素。

2026-01-05 19:40:40 326

原创 C++: 求两个数的最小公倍数

输入:45000 500000。

2025-11-20 17:46:15 113

原创 逻辑回归(Logistic Regression)详细解释与公式推导

模型形式:逻辑回归 = 线性回归 + Sigmoid函数,核心是将线性输出映射为概率;损失函数:交叉熵损失(负对数似然),确保预测概率与真实标签一致;参数求解:通过梯度下降法最小化损失,利用Sigmoid的导数性质简化梯度计算;核心优势:模型简单、可解释性强(权重ww可反映特征对分类的影响程度)、训练速度快、泛化能力稳定;适用场景:二分类任务,尤其适合需要概率输出和特征解释的场景。逻辑回归的扩展形式(如Softmax回归)可用于多分类任务,但其核心思想(线性拟合+概率映射)保持一致。

2025-11-09 10:42:23 2046

原创 Python:np.clip(z, -250, 250) 的功能解释

【代码】Python:np.clip(z, -250, 250) 的功能解释。

2025-11-08 21:25:23 186

原创 再次重写K-Means Algorithm

2025年10月24日重写k-means(随机初始化聚类中心)

2025-10-24 17:03:45 207

原创 Pytorch实现一个简单的贝叶斯卷积神经网络模型

在模型规模相似的情况下,普通 CNN 由于参数更少、计算流程更简单(无额外的 KL 散度计算和采样操作),训练速度显著快于贝叶斯 CNN。贝叶斯 CNN 的优势不在于训练效率,而在于其能量化预测的不确定性(例如通过多次采样得到预测分布),并在小样本、数据噪声大的场景下可能具有更好的泛化能力,但这是以更高的计算成本为代价的。

2025-08-03 11:04:08 1286

原创 Pytorch实现目标检测

使用的数据集是:Kaggle上的Road Sign Detection数据集。该数据集共有877张图片。因为使用了OpenCV所以各种路径中不能有中文。这个是一定要注意的。在测试集上的分类准确率为:90.34%

2025-07-22 17:33:15 382

原创 nn.ReLU(inplace=True)中的inplace=True代表什么意思?

inplace=True的核心价值是通过牺牲数据完整性换取内存和计算效率,适用于显存敏感且无需保留输入的场景(如推理或预处理),但在训练阶段需谨慎评估其对梯度流的影响。

2025-07-21 11:33:34 443

原创 基于孪生网络 (Siamese Network) 的人脸识别系统

代码实现使用了 VGG19 预训练模型作为特征提取器,通过对比学习来判断两张人脸图像是否属于同一人。整个代码分为数据准备、模型构建、训练和测试四个主要部分。上一个帖子记录了基于普通CNN的人脸识别系统。但是,测试准确率实在太低了只有30%。这次使用**孪生网络(Siamese Net)**进行实现。

2025-07-21 10:00:42 352

原创 使用pytorch创建模型时,nn.BatchNorm1d(128)的作用是什么?

在PyTorch中,nn.BatchNorm1d(128) 的作用是对(如全连接层的输出或时间序列数据)进行。

2025-07-20 22:04:03 820

原创 基于Pytorch的人脸识别程序

这个实现采用了经典的分类方法进行人脸识别,通过训练一个多类分类器,使得同一个人的特征向量在特征空间中接近,不同人的特征向量远离。在实际应用中,还可以进一步改进,例如使用 Triplet Loss 或 ArcFace 等更先进的损失函数来优化特征空间。人脸识别是模式识别和计算机视觉领域的重要研究方向,其目标是从图像或视频中识别出特定个体的身份。如果需要使用这个程序,只需确保数据集路径正确,然后运行代码即可。现代人脸识别技术的突破主要归功于深度卷积神经网络的应用。当相似度超过设定阈值时,判定为同一人。

2025-07-20 18:28:27 1139

原创 使用ImageFolder加载图像数据集

是 PyTorch 中用于加载图像数据集的实用类,特别适合处理按文件夹组织的图像数据。

2025-07-20 09:58:18 479

原创 统计EfficientNet-B7的参数个数。

EfficientNet 是谷歌提出的一系列高效卷积神经网络,通过复合缩放方法对网络的深度、宽度和分辨率进行联合优化,在同等计算资源下取得了比传统网络更好的性能。不同版本的 EfficientNet(如 EfficientNet - B0 到 EfficientNet - B7) 参数量和计算量等指标有所不同,随着版本号的增大,模型规模和性能也在不断提升,EfficientNet - B7 在设计上更侧重于处理复杂任务,但也带来了相对较多的参数和计算量。我们将使用如下代码,利用。

2025-07-19 21:05:02 425

原创 Pytorch实现感知器并实现分类动画

运行代码后,你将看到一个动画展示感知机如何逐步学习区分两类数据的决策边界。随着训练的进行,决策边界会不断调整,直到能够正确分离两个类别。:使用用户提供的函数生成两类可线性分离的数据点。

2025-07-13 23:24:44 522

原创 结构体数组的应用

【代码】结构体数组的应用。

2025-06-17 13:02:16 297

PSO与捕鱼策略相结合的优化方法

捕鱼策略算法

2017-07-20

Active learning via local structure reconstruction

基于数据重构的主动学习方法、代表性主动学习方法、基于局部结构重构的主动学习方法、ALLSR,Python代码实现。

2023-10-29

序分类数据集Obesity

数据集Obesity1的样本个数为2111,属性个数为29,类别个数为7,类别分布为[272 287 290 290 351 297 324],不平衡度1.2904411764705883

2023-10-18

序分类数据集eucalyptus

数据集eucalyptus的样本个数为736,属性个数为91,类别个数为5,类别分布为[180 107 130 214 105],不平衡度2.038095238095238

2023-10-18

序分类数据集Knowledge

数据集Knowledge的样本个数为403,属性个数为5,类别个数为4,类别分布为[ 50 129 122 102],不平衡度2.58 数据类型为连续数值型

2023-10-18

序分类数据集Melanoma

数据集Melanoma的样本个数为562,属性个数为100,类别个数为5,类别分布为[313 64 102 54 29],不平衡度10.793103448275861

2023-10-18

序分类数据集Nursery

数据集Nursery的样本个数为12958,属性个数为27,类别个数为4,类别分布为[4320 328 4266 4044],不平衡度13.170731707317072

2023-10-18

序分类数据集CTGs,数据类型:连续数值型

数据集CTGs的样本个数为2126,属性个数为21,类别个数为3,类别分布为[1655 295 176],不平衡度9.403409090909092 数据类型:连续数值型

2023-10-18

主动学习方法:xPAL的python代码

主动学习方法论文复现Toward optimal probabilistic active learning using a Bayesian approach 2021年(xPAL)

2023-10-18

序分类数据集Nursery的one hot encoding版(12960个样本, 28个属性,类别数为5)

最新整理出来的用于序分类/序回归的稍大点的数据集Nursery,托儿所评审数据。数据集原始版本来自于UCI,但原始属性为nominal。现在已经通过one hot encoding的形式转化成了numerical数据集。大家可以直接使用了。使用KELMOR模型(分层5折交叉)的分类正确率是99.17438%,平均绝对误差是0.00771604。

2023-05-15

聚类数据集之R15.csv

聚类论文必用数据集

2021-06-25

人工回归数据集sin.csv

人工回归数据集sin.csv

2021-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除