自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(700)
  • 资源 (16)
  • 收藏
  • 关注

原创 基于DyHead和YOLOv11的错题自动切分系统

本项目开发了一套基于DyHead和YOLOv11的错题自动切分系统,采用双模型协同检测架构:DyHead检测器实现题目区域分割,YOLOv11模型识别5类错误符号。系统提供智能匹配算法,包含中心点包含、重叠面积、IOU和距离计算4种策略。通过Flask框架提供Web服务和API接口,支持试卷图片上传和错题检测结果可视化展示。项目结构清晰,包含模型配置、权重文件和应用代码,可实现高精度的错题自动检测与匹配功能。

2026-03-24 21:12:42 556

原创 13.机器学习—— ML特征工程和优化方法

凸函数的严格定义为,函数L(·) 是凸函数当且仅当对定义域中的任意两点x,y和任意实数λ∈[0,1]总有:该不等式的一个直观解释是,凸函数曲面上任意两点连接而成的线段,其上的任 意一点都不会处于该函数曲面的下方,如下图所示所示。凸优化问题的例子包括支持向量机、线性回归等 线性模型,非凸优化问题的例子包括低秩模型(如矩阵分解)、深度神经网络模型等。

2025-08-23 11:21:43 933

原创 12.机器学习——聚类(Clustering)

需要说明的是,用于评估的最佳数据簇数可能与程序输出的簇数是不同的。我们可以观察聚类误差是否随聚类类别数 量的增加而单调变化,如果数据是基本随机的,即不存在非随机簇结构,那么聚 类误差随聚类类别数量增加而变化的幅度应该较不显著,并且也找不到一个合适 的K对应数据的真实簇数。二分k-means算法:首先将整个数据集看成一个簇,然后进行一次k-means(k=2)算法将该簇一分为二,并计算每个簇的误差平方和,选择平方和最大的簇迭代上述过程再次一分为二,直至簇数达到用户指定的k为止,此时可以达到的全局最优。

2025-08-22 17:15:10 1070

原创 11.机器学习——最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法)

最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。极大似然估计用一句话概括就是:知道结果,反推条件θ。

2025-08-20 15:26:56 941

原创 10.机器学习——主题模型(Topic Model) LDA

LDA(隐含狄利克雷分布)是一种概率主题模型,用于从文档集中反推主题分布。其核心思想是:文档由多个主题混合生成,每个主题又对应一个词语分布。LDA的生成过程涉及狄利克雷分布、多项分布等概率模型,并通过共轭先验和贝叶斯框架实现参数推断。与基础模型(Unigram、Mixture of unigrams和pLSA)相比,LDA的突破在于引入贝叶斯框架,允许文档包含多个主题。模型通过Gibbs采样等方法进行参数估计,广泛应用于文本聚类、分类和信息检索。

2025-08-14 16:42:00 1120

原创 10.机器学习——马尔科夫(Markov)

显然难以直接判断,需要参考闭嘴之前的照片,如果之前的照片显示小明在吃饭,那这个闭嘴的照片很可能是小明在咀嚼食物准备下咽,可以给它打上吃饭的标签;如同马尔可夫随机场,条件随机场为具有无向的图模型],图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y 的分布为条件机率,给定的观察值则为随机变量 X。跟前向算法相反,我们知道总的概率肯定是1,那么B_t=1,也就是最后一个时刻的概率合为1,先计算前三天的各种可能的概率,在计算前两天、前一天的数据,跟前向算法相反的计算路径。

2025-08-13 14:31:30 1103

原创 9.机器学习——贝叶斯网络(Bayesian Network)

概率图模型是结合概率论与图论的知识,用图结构表示变量间概率依赖关系的理论。它分为贝叶斯网络(有向图)和马尔可夫网络(无向图)两大类,广泛应用于机器学习领域。贝叶斯网络通过有向无环图描述变量间的因果关系,其核心思想源于贝叶斯学派,认为参数是随机变量,强调先验分布与后验分布的结合。频率派则视参数为固定值,侧重样本分布研究。贝叶斯网络包含head-to-head、tail-to-tail和head-to-tail三种基本结构,能够表达复杂的条件独立关系。因子图则是对概率函数进行分解得到的双向图,包含变量节点和函数

2025-08-12 17:17:40 1172

原创 8.机器学习——支持向量机(SVM)

支持向量机(SVM)是一种经典的监督学习算法,主要用于二分类问题。其核心思想是找到一个最优的超平面,使得两类数据点之间的间隔最大化。SVM通过优化几何间隔来确定分类超平面,确保分类的置信度最高。对于线性不可分的情况,SVM通过核映射将数据映射到高维空间,使其在高维空间中线性可分。SVM的优化问题可以转化为凸二次规划问题,并通过拉格朗日乘子法求解。常用的损失函数是Hinge Loss,用于最大化分类间隔。SVM在处理高维数据和复杂分类问题时表现出色,广泛应用于机器学习和数据挖掘领域。

2025-05-09 17:56:21 1096

原创 7.机器学习——LightGBM

首先,最明显就是内存消耗的降低,直方图算法不仅不需要额外存储预排序的结果,而且可以只保存特征离散化后的值,而这个值一般用8位整型存储就足够了,内存消耗可以降低为原来的1/8。但实际上Level-wise是一种低效的算法,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销,因为实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。在遍历数据的时候,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。

2025-05-06 17:16:58 827

原创 6.机器学习——XGBoost

XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。包括前面说过,两者都是boosting方法。关于GBDT,这里不再提,可以查看我前一篇的介绍,

2025-04-30 18:56:39 1415

原创 5.机器学习——梯度提升决策树(GBDT)

然后拿它们的残差-1、1、-1、1代替A B C D的原值,到第二棵树去学习,第二棵树只有两个值1和-1,直接分成两个节点,即A和C分在左边,B和D分在右边,经过计算(比如A,实际值-1 - 预测值-1 = 残差0,比如C,实际值-1 - 预测值-1 = 0),此时所有人的残差都是0。可以发现,两者都是在每 一轮迭代中,利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更 新,只不过在梯度下降中,模型是以参数化形式表示,从而模型的更新等价于参 数的更新。,即“当前预测模型的值”,也就是对它求负梯度。

2025-04-29 17:12:06 851

原创 4.随机森林(Random Forest)

Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学入噪声后会使准确度不高。举个例子假设有1000个样本,如果按照以前的思维,是直接把这1000个样本拿来训练,但现在不一样,先抽取800个样本来进行训练,假如噪声点是这800个样本以外的样本点,就很有效的避开了。重复以上操作,提高模型输出的平均值。OOB。

2025-04-26 11:05:33 727

原创 3.决策树(Desition Tree)

其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧!LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性的区别。

2025-04-24 18:40:33 1059

原创 2.逻辑回归(Logistics Regression)

逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么进行分类呢?不用担心,伟大的数学家已经为我们找到了一个方法。也就是把Y的结果带入一个非线性变换的Sigmoid函数中,即可得到[0,1]之间取值范围的数S,S可以把它看成是一个概率值,如果我们设置概率阈值为0.5,那么S大于0.5可以看成是正样本,小于0.5看成是负样本,就可以进行分类了。

2025-04-21 11:01:14 1254

原创 2.逻辑回归(Liner Regression)----- 代码实现

信用评分算法对违约概率进行猜测,是银行用来确定是否应该发放贷款的方法。这项比赛要求参赛者通过预测某人在未来两年内遭遇财务困境的概率,提高信用评分的最新水平。银行在市场经济中发挥着至关重要的作用。他们决定谁可以获得资金,以什么条件获得资金,可以做出或破坏投资决策。为了使市场和社会发挥作用,个人和公司都需要获得信贷。

2025-04-21 11:00:12 369

原创 1.线性回归(Liner Regression)

线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,这就是回归的由来。

2025-04-14 20:22:39 1286

原创 1.线性回归(Liner Regression)----- 代码实现

这篇介绍的是我在做房价预测模型时的python代码,房价预测在机器学习入门中已经是个经典的题目了,但我发现目前网上还没有能够很好地做一个demo出来,使得入门者不能很快的找到“入口”在哪,所以在此介绍我是如何做的预测房价模型的题目,仅供参考。,能够看到第二列是销售价格,而我们要预测的就是销售价格,所以在训练过程中是不需要销售价格的,把第二列删除掉,新建一个csv文件存放销售价格这一列,作为后面的结果对比。y表示我们要求的销售价格,x表示特征值。下载的是两个数据文件,一个是真实数据,一个是测试数据,打开。

2025-04-14 19:54:39 994

原创 论文解析八: GAN:Generative Adversarial Nets(生成对抗网络)

文章提出了一个新的framework(framework通常是一个比较大的模型)用来估计生成模型,通过对抗的过程,同时会训练两个模型**生成模型G:**用来抓取整个数据的分布(生成模型就是要对整个数据的分布进行建模,使得能够生成各种分布,这里的分布就是指的生成图片、文字或者电影等,在统计学中,整个世界是通过采样不同的分布来得到的,所以如果想要生成东西,就应该抓取整个数据的分布)**辨别模型D:**用来估计样本到底是从真正的数据生成出来的还是来自生成模型生成出来的。

2024-10-23 12:13:53 1861

原创 论文解析七: GNN与GCN(图神经网络)一站式详细讲解

图是用来表示entity(实体)之间的关系实体就是一个点(node,顶点)关系就是一个边(edge)顶点(node)边:顶点之间的关系全局信息:每个顶点、每条边和整个图表示的信息使用向量来标示顶点,边,全局属性顶点(黄色)可以用一个embeding(向量)来表示它里面的属性,一共有六个值,高矮表示值的大小边(蓝色)也可以使用向量来表示,长度可以和顶点不一样,这里使用的是一个长度为8的向量,即边中所有的属性用一个长度为8的向量来表示全局信息(粉色)可以用一个长为5的向量来表示。

2024-10-23 11:14:03 2650

原创 论文解析六:Transformer----Attention Is All You Need---注意力是你所需要的

在主流的序列转录模型里面,主要是依赖于比较复杂的循环或者是卷积神经网络一般是使用encoder和decoder的架构序列转录模型:给定一个序列,然后生成另外一个序列,比如机器翻译在性能最好的模型之中,通常也会在编码器和解码器之间使用注意力机制这篇文章提出了一个新的简单的架构(simple,之前都倾向于写成novel),这个模型就是Transformer仅仅依赖于注意力机制,而没有用之前的循环或者卷积。做了两个机器翻译的实验,显示这个模型在性能上特别好,可以并行度更好然后使用更少的时间来训练。

2024-10-14 10:52:09 1264

原创 论文解析五:VGGNet 用于大规模图像识别的深度卷积网络

​ VGG网络研究了卷积网络深度在大规模的图像识别环境下对准确性的影响。我们的主要贡献是使用非常小的(3×3)卷积滤波器架构对网络深度的增加进行了全面评估,这表明通过将深度推到16-19 加权层可以实现对现有技术配置的显著改进。VGG网络对于其他数据集泛化的很好,在其它数据集上取得了最好的结果。​ 随着 ConvNets 在计算机视觉领域越来越商品化,为了达到更好的准确性, 已经进行了许多尝试来改进​ 1.使用了更小的感受野窗口尺寸和第一卷积层更小的步长。

2024-10-14 10:22:11 869

原创 论文解析四:AlexNet 使用深度卷积神经网络进行 ImageNet 分类

表示了我们用了一个深度卷积神经网络来进行图片分类,取得了一个非常好的效果。深度卷积网络由60million个参数,65w个神经元,以及五个卷积层和三个全连接层组成。为了加快训练,用到了GPU加速实现。用了dropout这个正则化方法来减少过拟合。引出ImageNet这个数据集很大很好。对于ImageNet这个很大的模型,我们采用CNN来作为我们的模型。对于CNN计算成本高(容易overfitting+训练不动),我们利用GPU以及高度优化的2D卷积来实现CNN的训练。

2024-10-08 16:34:23 1382

原创 论文解析三: D2-Net 用于联合描述和检测局部特征的可训练CNN

​解决在困难的成像条件下寻找可靠的像素级对应的问题。​提出一种由单一卷积神经网络发挥双重作用的方法:它同时是一个密集的特征描述符和一个特征检测器。通过将检测推迟到后期阶段,所获得的关键点比基于低层结构早期检测的传统关键点更稳定。我们证明了该模型可以使用从现成的大规模SfM重建中提取的像素对应来训练,而不需要任何进一步的注释。该方法在困难的亚琛昼夜定位数据集和InLoc室内定位基准上都获得了最先进的性能,以及在其他图像匹配和三维重建基准上具有竞争力的性能。

2024-10-08 15:26:44 1900

原创 论文解析二: SuperGlue 同时进行特征匹配以及滤除外点的网络

​ 本文提出了一种能够同时进行特征匹配以及滤除外点的网络。其中特征匹配是通过求解可微分最优化转移问题( optimal transport problem)来解决;本文基于注意力机制提出了一种将2D特征点以及聚合机制,这使得SuperGlue能够同时感知潜在的3D场景以及进行特征匹配。该网络能够在GPU上达到实时,预期能够集成到slam算法中位置如下图​ 在经典的SLAM框架中,前端进行特征提取,后端进行非线性优化,而。

2024-09-10 12:26:34 2065

原创 论文解析一: SuperPoint 一种自监督网络框架,能够同时提取特征点的位置以及描述子

​ 对于特征点提取部分,网络先将维度( W / 8 , H / 8 , 128 )的特征处理为( W / 8 , H / 8 , 65 )大小,这里的65的含义是特征图的每一个像素表示原图8 × 8 的局部区域加上一个当局部区域不存在特征点时用于输出的Dustbin通道,通过。​ 对于特征描述子提取部分,同理,我们还是使用encoder层的输出(H,W,128)。,这一层是为了8×8的局部区域内没有特征点时,经过Softmax后64维的特征势必还是会有一个相对较大的值输出,但加入。后就可以避免这个问题。

2024-09-10 11:49:01 2978

原创 24 优化算法

深度学习模型大多是非凸的所以关于凸优化的很多理论无法使用小批量随机梯度下降是最常用的优化算法冲量对梯度做平滑冲量法是一个简单的稳定优化的算法Adam 对梯度做平滑,且对梯度各个维度值做重新调整通过实践发现,Adam 不一定比冲量法准确率高或者是收敛快,但是整体来讲 Adam 是比较稳定的,Adam 对学习率不那么敏感,使得调参相对来讲会更加容易一点范围之中(进行维度上的调整)分母中的 ε 的作用是保证分母不等于零。

2024-08-19 18:33:44 757

原创 23 注意力机制—BERT

在计算机视觉中比较流行,将 ImageNet 或者更大的数据集上预训练好的模型应用到其他任务中,比如小数据的预测、图片分类或者是目标检测。使用预训练好的模型(例如 word2vec 或语言模型)来抽取词、句子的特征。在更换任务之后,还是需要构建新的网络来抓取新任务需要的信息。做迁移学习的时候,一般不更新预训练好的模型。

2024-08-19 18:18:09 392

原创 22 注意力机制—Transformer

和 seq2seq 有点类似,不同之处在于 Transformer 是一个纯使用注意力的编码-解码器编码器和解码器都有 n 个 Transformer 块每个块里使用多头(自)注意力(multi-head attention),基于位置的前馈网络(Positionwise FFN),残差连接和层归一化编码器和解码器中各有一个自注意力,但是在编码器和解码器中传递信息的是一个正常的注意力。

2024-08-13 09:23:06 539

原创 21 注意力机制—自注意力

自注意力池化层将 xi 当作 key ,value query 来对序列抽取特征完全并行、最长序列为 1 、但对长序列计算复杂度高可以完全并行,和 CNN 是一样的,所以计算效率比较高最长序列为 1 ,对于任何一个输出都能够看到整个序列信息,所以这也是为什么当处理的文本比较大、序列比较长的时候,通常会用注意力和自注意力但是问题是对长序列的计算复杂度比较高,这也是一大痛点位置编码在输入中加入位置信息,使得自注意力能够记忆位置信息。

2024-08-13 09:14:22 267

原创 20 注意力机制—注意力机制在seq2seq

Seq2Seq 中通过编码器最后时刻的隐藏状态在编码器和解码器中传递信息注意力机制可以根据解码器 RNN 的输出来匹配到合适的编码器 RNN 的输出来更有效地传递信息在预测词元时,如果不是所有输入词元都是相关的,加入注意力机制能够使 RNN 编码器-解码器有选择地统计输入序列的不同部分(通过将上下文变量视为加性注意力池化的输出来实现)

2024-08-05 09:35:49 172

原创 19 注意力机制

心理学认为人通过随意线索(故意)和不随意线索(无意)选择注意点注意力机制中,通过query(随意线索)和 key(不随意线索)来有偏向性地选择输入,一般可以写作f(x)的 key 和所有的不随意线索的 key 做距离上的计算(α(x,xi),通常称为注意力权重),分别作为所有的 value 的权重这并不是一个新兴的概念,早在 60 年代就已经有非参数的注意力机制了接下来会介绍不同的权重设计。

2024-08-05 09:20:48 270

原创 18现代循环神经网络—seq2seq与束搜索

Seq2Seq 从一个句子生成另一个句子,机器翻译算是其中的一个应用场景Seq2Seq 使用的是编码器-解码器的架构,编码器和解码器都是 RNN将编码器最后时间隐藏状态来初始解码器隐状态来完成信息传递在“编码器-解码器”训练中,强制教学方法将**原始输出序列(而非预测结果)**输入到解码器中BLEU 是一种常用的评估方法,它通过测量预测序列和标签序列之间的 n 元语法的匹配度来衡量生成预测序列的好坏序列搜索策略包括贪心搜索、穷举搜索和束搜索。

2024-07-29 12:00:41 327

原创 17现代循环神经网络—机器翻译,编码器-解码器

机器翻译指的是将文本序列从一种语言自动翻译成另外一种语言使用单词级词元化时的词表大小,将明显大于使用字符级词元化时的词表大小。为了缓解这一问题,可以通过将低频次元视为相同的未知词元来解决通过截断和填充文本序列,可以保证所有的文本序列都具有相同的长度,便于以小批量的方式进行加载使用编码器-解码器架构的模型,编码器负责表示输入,解码器负责输出“编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问题。

2024-07-29 11:56:19 229

原创 16现代循环神经网络—深度循环与双向循环

深度循环神经网络使用多个隐藏层来获得更多的非线性性GRU、RNN、LSTM 在结构上都是相同的,只是隐状态 H 的计算方式有区别,所以它们加深神经网络的原理都是相同的在深度循环神经网络中,隐状态的信息被传递到当前层的下一时间步和下一层的当前时间步存在许多不同风格的深度循环神经网络,如长短期记忆网络、门控循环单元或经典循环神经网络深度循环神经网络需要大量的调参(如学习率和修剪)来确保合适的收敛,模型的初始化也需要谨慎双向循环神经网络通过反向更新的隐藏层来利用方向时间信息。

2024-07-22 16:21:02 738

原创 15现代循环神经网络—GRU与LSTM

GRU 中引入了两个额外的门,每个门可以学习的参数和 RNN 一样多,整个可学习的权重数量是 RNN 的三倍Rt 和 Zt 都是控制单元,用来输出取值为 0~1 的数值Rt 用来衡量在更新新的隐藏状态的时候,要用到多少过去隐藏状态的信息Zt 用来衡量在更新新的隐藏状态的时候,需要用到多少当前Xt相关的信息当 Zt 全为 0 , Rt 全为 1 时,等价于 RNN当 Zt 全为 1 时,直接忽略掉当前 XtGRU 通过引入 Rt 和 Zt ,从而能够在各种极端情况之间进行调整。

2024-07-22 16:13:21 577 1

原创 14循环神经网络—RNN

对隐藏状态使用循环计算的神经网络称为循环神经网络(RNN),循环神经网络的输出取决于当下输入和前一时间的隐变量循环神经网络的隐藏状态可以捕获当前时间步序列的历史信息隐变量是用来存储历史信息和下一个历史信息的转换规则,所以在拿到过去的输入和当前的隐藏状态就能够预测当前的输出Whh 拥有一定的时序预测目的应用到语言模型中时,循环神经网络根据当前词预测下一次时刻词根据当前的输入更新当前时刻的隐藏状态就能够预测下一个时刻的输出RNN 是一个隐变量模型,隐变量是一个向量。

2024-07-16 10:37:45 362

原创 13 循环神经网络—序列模型,语言模型

时序模型中,当前数据跟之前观察到的数据相关自回归模型使用自身过去数据来预测未来马尔科夫模型假设当前只跟当前少数数据相关,每次都使用固定长度的过去信息来预测现在,从而简化模型潜变量模型使用潜变量来概括历史信息,使得模型拆分成两块:一块是根据现在观测到的数据来更新潜变量;另一块是根据更新后的潜变量和过去的数据来更新将来要观测到的数据内插法(在现有观测值之间进行估计)和外推法(对超出已知观测范围进行预测)在实践的难度上差别很大。

2024-07-16 10:12:59 1624

原创 12计算机视觉—全连接卷积与迁移学习(风格迁移)

全卷积网络首先使用卷积神经网络抽取图像特征,然后通过 1 * 1 卷积层将通道数变换为类别个数,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸在全卷积网络中,可以将转置卷积层初始化为双线性插值的上采样样式迁移常用的损失函数由 3 部分组成:内容损失、样式损失和全变分损失内容损失使合成图片与内容图片在内容特征上接近样式损失使合成图片与样式图片在样式特征上接近全变分损失有助于减少合成图片中的噪点。

2024-07-10 10:56:56 346

原创 11计算机视觉—语义分割与转置卷积

与目标检测不同,语义分割可以识别并理解图像中每一个像素的内容:其语义区域的标注和预测是像素级的。与目标检测相比,语义分割标注的像素级的边框显然更加精细。然而如果输入和输出图像的空间维度相同,在以像素级分类的语义分割中将会很方便。​ 为了实现这一点,尤其是在空间维度被卷积神经网络层缩小后,我们可以使用另一种类型的卷积神经网络层,它可以增加上采样中间层特征图的空间维度。在标签图像中,白色和黑色分别表示边框和背景,而其他颜色则对应不同的类别。​ 通过上面定义的两个常量,我们可以方便地查找标签中每个像素的类索引。

2024-07-10 10:42:00 286

原创 10计算机视觉—物体检测算法

R-CNN是最早,也是最有名的一类基于锚框和CNN的目标检测算法Fast/Faster R-CNN持续提升性能Faster R-CNN和Mask R-CNN是在最高精度场景下的常用算法SSD通过单神经网络来检测以每个像素为中心的产生多个锚框在多段的输出上进行多尺度的检测。

2024-07-03 09:57:32 361

图像超分辨率工具:擅长修复漫画图像,让图像的效果惊艳

一个图像超分辨率模型,特别擅长修复漫画图像,让图像的效果惊艳。通过AI技术,你可以将你的图像“增强”到超高清,让照片像电影画面一样清晰,给你带来全新的视觉体验。

2026-01-22

Motion Canvas 动画编辑器

Motion Canvas是一个使用TypeScript编写的库,通过编程的方式可视化复杂的想法。它提供了生成器来编程动画,是一个专门用于创建信息矢量动画并与音频同步的工具。

2026-01-22

项目管理和问题跟踪平台

项目管理和问题跟踪平台。该项目是项目管理系统,旨在简化团队的项目管理流程。它易于使用、可自托管,支持问题跟踪、周期管理、项目分解和分析统计等功能,可作为 JIRA 的替代品。

2026-01-22

创意动画工具:进行手绘变形和制作成动画

这个创意动画工具使用对象检测模型、姿态估计模型和基于图像处理的分割方法,可以快速创建数字版的图画,并通过传统的计算机图形技术进行变形和制作成动画。

2026-01-22

根据文本生成 3D 人体运动的模型 论文《Human Motion Diffusion Model》第一作者开源的 PyTorch 实现

根据文本生成 3D 人体运动的模型。论文《Human Motion Diffusion Model》第一作者开源的 PyTorch 实现。

2026-01-22

虚拟桌宠模拟器 一个开源的桌宠软件, 可以内置到任何WPF应用程序

一款虚拟桌宠模拟器。这是一款 Windows 桌面宠物软件,支持摸头、喂食、喝水、打工、睡觉、玩耍等多种互动方式。

2026-01-20

全流程加速科研,利用chatgpt进行论文全文总结+专业翻译+润色+审稿+审稿回复

一个科研全流程加速工具,它利用 ChatGPT 进行论文总结、润色、审稿和审稿回复等工作。通过 ChatPaper,你可以更高效地完成论文相关的任务,节省时间并提升科研效率。

2026-01-20

Grounded-Segment-Anything AI图像分割工具

这个项目结合了接地DINO(Deep Interpolation Network)与分段任何、稳定扩散、BLIP和耳语等技术,实现了自动检测、分段和生成具有图像、文本和语音输入的内容。它为用户提供了一种全面的内容处理工具,适用于多媒体数据的分析和生成。

2026-01-20

AIGC 提示词可视化编辑器

一个有创意的提示设计项目。OpenPromptStudio 为用户提供了一个可视化的提示设计工具,帮助他们轻松创建和优化提示。对于需要进行提示工程的人来说,这个项目是一个很有用的工具。

2026-01-20

即使对于精简团队,也能最快实现 AI 驱动的全栈可观测性

一款Linux系统性能实时监控工具。它易于安装、占用资源少、功能强大,支持监控多种服务。Netdata可以帮助系统管理员和开发人员实时监测Linux系统的性能和健康状况,提供及时的故障诊断和优化建议。

2025-12-22

关于 阿里巴巴 Java 诊断工具

调试分布式应用的难度太高?用arthas就像在本地调试一样轻松!这个阿里巴巴项目提供了可靠的Java诊断和调试工具,让你快速定位分布式系统的问题。

2025-12-22

一体化可观察性解决方案

云原生监控系统。支持 Docker 等多种部署方式,集数据采集、监控告警、可视化为一体的企业级监控平台。借助高性能时序库,可以满足数亿时间线的采集、存储和告警分析的场景。该项目已在上千家企业部署落地,经历了各种生产环境的检验。

2025-12-19

持续性能分析平台 精准定位性能问题至单行代码

你的应用慢如蜗牛?基于 Go 的开源实时性能分析平台,让Pyroscope告诉你瓶颈在哪里!这个项目提供了简单易用的性能分析工具,让你的应用更加快速。

2025-12-19

支持离线地图和轨迹记录的GPS自行车码表

GPS 自行车码表,支持记录和显示实时轨迹以及导出标准GPX格式的轨迹文件!

2025-12-18

dperf:基于DPDK的高性能网络负载测试工具

一个100Gbps的网络性能与压力测试软件。单机可以达到数千万HTTP每秒新建,数百Gbps带宽,几十亿并发。国内大厂都在用dperf测试其网卡、网络设备、四层负载均衡。知名开源四层负载均衡DPVS在用dperf做性能测试,发布性能测试报告。

2025-12-18

墨菲安全专注于软件供应链安全,具备专业的软件成分分析(SCA)、漏洞检测、专业漏洞库

墨菲安全专注于软件供应链安全,具备专业的软件成分分析(SCA)、漏洞检测、专业漏洞库

2025-12-18

Claude 编程使用全景图

Claude 不止会聊天,它还能写代码!这个项目总结了它在开发场景下的高效用法,是你把 Claude 用出生产力的秘籍

2025-10-27

Claude 应用开发的最佳入门手册

想深入用好 Claude?这个项目就像一本实践手册,整理了大量真实示例和最佳实践,帮你快速构建高质量 AI 应用,开发者福音!

2025-10-27

Anthropic 的交互式提示工程学习平台

来自 Anthropic 的交互式提示工程学习平台,通过可视化与实时反馈,帮助用户掌握高效的提示构建技巧,适用于 LLM 应用开发者与研究者。

2025-10-27

OpenCut的视频剪辑应用

跨平台、注重用户体验的视频剪辑工具,支持时间轴、多轨编辑、导出高质量 MP4/H264 视频,界面简洁友好

2025-08-22

血液细胞检测数据集 8类 血小板 淋巴细胞 免疫球蛋白 YOLO格式.zip

一共八千加图片 一共分为8类,分别为:'basophil', 'eosinophil', 'erythroblast', 'ig', 'lymphocyte', 'monocyte', 'neutrophil', 'platelet'   嗜碱性粒细胞、嗜酸性粒细胞、幼红细胞、免疫球蛋白、淋巴细胞、单核细胞、中性粒细胞、血小板

2026-03-30

无人机 空对地 农用建筑大棚识别数据集 YOLO格式

一共一千+图片,分别都打好标签 一共分为8类,分别为:'blue_canopy', 'green_shack', 'others'   “蓝色遮阳篷”、“绿色棚屋”、“其他”

2026-03-30

半导体晶圆缺陷程度检测数据集 YOLO格式

一共一万八千+图片,分别都打好标签 一共分为8类,分别为:'Center', 'Donut', 'Edge-Loc', 'Edge-Ring', 'Loc', 'Near-full', 'Random', 'Scratch'  “中心”、“甜甜圈”、“边缘定位”、“边缘环”、“定位”、“接近完整”、“随机”、“刮痕”

2026-03-27

欺诈检测 100万笔交易 ·7种欺诈类型

一个涵盖2022年至2024年信用卡和数字支付交易的综合合成金融欺诈检测数据集。采用一个真实的概率欺诈生成模型构建,复制了现实世界欺诈行为中观察到的关键模式:    夜间集中度——欺诈高峰期为00:00–05:00×审核员离线时    有组织的欺诈团伙——200个模拟环,共享设备/IP/电子邮件连接    7种不同的欺诈类型——不仅仅是二进制标签,每种标签都有独特的行为特征    现实阶级不平衡——1.71%的欺诈率与真实生产环境相符   完整的跨特征交互——速度、数量比率、知识产权风险、外国标志、设备指纹

2026-03-27

慢性肾病(CKD)临床数据集

该数据集提供了与慢性肾病(CKD)相关的全面医学信息,包括培训和检测数据。它包含患者详细信息,如人口统计信息、生命体征、实验室检测结果和病史。 统计数据: 目标、年龄、性别、体重指数、收缩压、舒张压、心率、血清肌酐、血尿素氮、估算肾小球滤过率、尿白蛋白、尿蛋白、白蛋白肌酐比值、尿比重、钠、钾、钙、磷、氯、碳酸氢盐、血红蛋白、红细胞计数、白细胞计数、血小板计数、红细胞压积、随机血糖、空腹血糖、糖化血红蛋白、胆固醇、甘油三酯、血清白蛋白、总蛋白、糖尿病、高血压、吸烟状况、家族肾病史 该数据集旨在帮助分析肾脏健康,并构建预测慢性肾病及其分期的机器学习模型。通过结合多种健康指标,它促进了对肾脏疾病的更好理解、早期发现和准确分类。总体而言,该数据集是医疗分析、研究和预测建模的重要资源。

2026-03-26

(农产品)香蕉成熟度检测数据集 YOLO格式

一共17k+图片,分别都打好标签 一共分为6类,分别为:'freshripe', 'freshunripe', 'overripe', 'ripe', 'rotten', 'unripe'  “新鲜未成熟”、“新鲜未成熟(状态)”、“过熟”、“成熟”、“腐烂”、“未成熟”

2026-03-26

车辆损伤程度检测数据集 YOLO格式

一共6k+图片,分别都打好标签 一共分为7类,分别为:'crack_and_hole', 'medium_deformation', 'severe_deformation', 'severe_scratch', 'slight_deformation', 'slight_scratch', 'windshield_damage'   “裂缝与孔洞”、“中度变形”、“严重变形”、“严重划痕”、“轻微变形”、“轻微划痕”、“挡风玻璃损坏”

2026-03-26

基于DyHead和YOLOv11的错题自动切分系统

集成了先进深度学习技术的错题自动检测系统,能够精准识别试卷中的题目区域和错误标记,具备以下核心能力: DyHead检测器: 基于动态头部检测技术的高精度题目区域分割模型 YOLOv11模型: 最新的YOLO系列模型,用于错误符号精准检测 智能匹配算法: 多策略错题-题目智能匹配,支持中心点包含、重叠面积、IOU、距离计算等方法 多类错误识别: 支持5类错误符号检测(错号、斜线、半对、问号、圆圈) 核心技术 双模型检测架构 系统采用双模型协同检测技术实现高精度错题定位: 题目区域检测: 基于DyHead的DocumentRegionDetector实现精准题目分割 错误符号识别: 使用YOLOv11模型检测5类错误标记符号 智能匹配算法 系统实现了4层匹配策略,确保匹配的准确性和鲁棒性:    中心点包含判断: 优先级最高,错误符号中心点位于题目框内    重叠面积计算: 计算重叠区域占错误符号面积的比例    IOU相似度: 使用交并比算法评估框体相似度    距离最近匹配: 兜底策略,基于中心点距离进行匹配

2026-03-24

船舶游艇拖船(YOLOv8)船舶目标识别数据集

一共5k+图片,分别都打好标签 一共分为10类,分别为:'BULK CARRIER', 'CONTAINER SHIP', 'GENERAL CARGO', 'OIL PRODUCTS TANKER', 'PASSENGERS SHIP', 'TANKER', 'TRAWLER', 'TUG', 'VEHICLES CARRIER', 'YACHT'  YOLOv8 格式 

2026-03-23

本项目基于 PyQt5 与 Ultralytics YOLOv8/v11,实现了一个可视化的钢材表面缺陷检测系统,并配套提供了一键数据准备与模型训练脚本,以及较完整的单元测试与集成测试

功能概述 缺陷检测可视化客户端(system.py) 使用 PyQt5 构建图形界面。 支持三种输入方式: 导入单张图片; 导入视频文件; 调用本地摄像头实时检测。 集成 YOLOv8/v11 模型,实时输出: 推理耗时; 检测到的目标数量; 当前首个目标的类别、置信度与坐标信息; 所有目标的检测结果记录在表格中(包含来源类型、类别、置信度、坐标)。 支持将当前检测结果图像保存到本地。 数据准备与模型训练(train.py) 使用 kagglehub 自动下载 NEU surface defect 数据集。 将 VOC XML 标注转换为所需的 TXT 标签格式。 自动划分训练集 / 验证集,并生成 neu_det_auto.yaml 配置文件。 调用 Ultralytics YOLOv8 进行训练,并输出权重: 训练结果默认存储于 runs/detect/steel_defect_auto_run; 最佳模型权重为 runs/detect/steel_defect_auto_run/weights/best.pt。 测试(tests/) tests/test_train.py:对数据转换、数据准备、配置生成、训练接口进行单元测试(大量使用 mock,避免真实下载和长时间训练)。 tests/test_system.py:基于 pytest-qt 的 GUI 单元测试和集成测试,使用假模型替代真实 YOLO,以保证测试快速稳定。

2026-03-23

全球人工智能准备度与数字经济指数

115 个国家 · 50 个维度 · 6 个大洲 · 10 个数据来源——这是有史以来最全面的人工智能准备情况数据集 此数据集为何重要 政府、研究人员和企业都在询问同一个问题:哪些国家在人工智能革命中处于最佳地位——而哪些国家则被甩在了后面? 该数据集通过将来自 10 个权威国际来源的真实数据整合到一个单一的、可供分析使用的文件中,从而解决了这个问题。在互联网上的任何地方都没有这样的资源集。 数据来源 每一个数据点均来自可公开获取且可验证的数据库: 来源 数据提供 网址 世界银行《世界发展指标》 国内生产总值、人口、教育、宽带、研发、电力数据 data.worldbank.org 联合国人类发展报告 人类发展指数、受教育年限、预期寿命 hdr.undp.org 国际电信联盟(国际电信联盟) 互联网普及率、移动用户数量、宽带 itu.int/en/ITU-D/Statistics 牛津洞察 政府人工智能准备指数 oxfordinsights.com/ai-readiness 世界知识产权组织全球创新指数 创新得分、专利数据 wipo.int/global_innovation_index 欧科拉全球速度测试指数 按国家划分的下载/上传速度 speedtest.net/global-index 斯坦福人工智能指数 人工智能出版物、投资数据 aiindex.stanford.edu 龟兔全球人工智能指数 人工智能人才、基础设施、研究 tortoisemedia.com/intelligence/global-ai 自由之家 自由度得分、新闻自由 freedomhouse.org 透明国际 廉政感知指数 transparency.org/cpi

2026-03-03

世界官方黄金储备数据集

黄金依然是最理想的“避险”资产,并且是各国储备的重要组成部分。截至 2026 年 2 月,全球经济格局的变化、通胀对冲以及数字资产的兴起,使得各国央行持有的黄金储备成为了备受关注的焦点。 本数据集提供了各国及国际组织(如国际货币基金组织和欧洲中央银行)所持有官方黄金储备的权威概览。该数据来源于国际金融统计(IFS),反映了截至 2026 年年初的最新报告持有量。 数据集内容 数据以表格形式呈现,代表了全球黄金财富的排行榜。主要特征包括: 排名:基于总黄金吨数确定的全球排名。 国家/实体:包括主权国家和国际金融机构(国际货币基金组织、国际清算银行、欧洲中央银行)。 吨数:官方黄金持有量的绝对重量(以公吨为单位)。 黄金储备占比:一个国家其外汇储备中黄金所占的百分比,是衡量一个国家对“硬资产”而非法定货币依赖程度的关键指标。 截至日期:每个实体的具体报告日期(追踪从 2025 年末到 2026 年初的最新更新)。 元数据:数据已针对国际清算银行(BIS)和欧洲中央银行(ECB)进行了调整,以避免在区域汇总中出现重复计数。 完整性:请注意,有些国家并不定期报告其持有量;“截至日期”这一列对于时间序列的准确性至关重要。

2026-02-28

欧洲信用卡欺诈检测数据集

该数据集包含了欧洲信用卡持有者在两天内进行的 284,807 笔交易信息。每笔交易都通过 31 个特征进行描述,其中大部分特征已通过主成分分析(PCA)进行处理,以确保数据的隐私和保密性。 从 V1 到 V28 标记的特征代表这些经过 PCA 处理的成分,能够捕捉交易的潜在模式,同时不会暴露敏感的财务信息。除了这些特征外,数据集还包括“时间”这一项,它表示连续交易之间的经过时间,以及“金额”这一项,它代表每笔交易的货币价值。 该数据集包含了为检测欺诈行为而收集的真实世界信用卡交易数据。它是一个大规模、干净且高度不平衡的数据集,常用于欺诈检测中的二分类问题。主要目标是使用匿名的数值特征准确区分合法交易和欺诈交易。

2026-02-28

亚马逊股票价格 1997-2025 - AMZN OHLCV

这个精心整理的数据集包含了 29 年的亚马逊(AMZN)股票市场历史数据,时间跨度从 1997 年 5 月 15 日至 2025 年 12 月 31 日。其中包含了超过 7200 个交易日的开盘价、最高价、最低价、收盘价和成交量(OHLCV)数据以及经过处理的 核心价格数据: 每日开盘价、最高价、最低价、收盘价交易量 价格变动与每日收益 价格范围(最高价与最低价之差) 技术指标: 移动平均线(7 日、30 日、90 日) 7 日波动率指标 自创立以来的累计收益 时间特征: 年度、季度、月度细分 星期分析 基于日期的汇总 数据来源与出处 原始来源:雅虎财经 收集工具:yfinance Python 库(雅虎财经官方 API 封装) 股票代码:AMZN(亚马逊公司) 交易所:纳斯达克

2026-02-28

全球气候变化指标数据集

这个数据集提供了2026年全球气候变化指标和极端天气影响的全面概览,涵盖全球多个国家和地区。 Ideal for: Climate Change Analysis Environmental Data Science Extreme Weather Risk Modeling Machine Learning & Prediction Projects Data Visualization & Dashboards Academic Research & Case Studies

2026-02-27

合成工业金属表面缺陷数据集

一共15k图片,分别都打好标签 一共分为5类,分别为'normal', 'scratch', 'crack', 'rust', 'hole' 这个数据集适用于: 工业质检自动化 - 训练 AI 检测金属表面缺陷 计算机视觉研究 - 图像分类、缺陷检测算法 制造业质量控制 - 模拟和识别生产线上的产品缺陷 深度学习教学 - 作为分类任务的标准数据集

2026-02-27

芝加哥犯罪数据集2024-2026

关于数据集 此数据集包含了自 2024 年 1 月起向芝加哥警察局报告的个人犯罪事件记录。每行代表一起已报告的犯罪事件,包括其类别、位置坐标、是否实施了抓捕、是否为家庭内部事件以及所属警区和警区范围。这些数据可用于犯罪预测、热点分析、时间模式检测以及公共安全研究。 专栏: id:唯一的记录标识符 case_number:芝加哥警察局案件编号 date:事件发生的时间和日期 block:部分隐去的街道地址 iucr:伊利诺伊州统一犯罪报告代码 primary_type:主要犯罪分类(例如,盗窃、殴打、袭击) description:详细的犯罪描述 location_description:地点类型(例如,街道、公寓、人行道) arrest:是否进行了逮捕(是/否) domestic:该事件是否与家庭相关(是/否) beat:事件发生的警区 district:警察区编号 ward:市议会区编号 community_area:社区代码 year:事件发生年份 latitude:事件的纬度坐标 longitude:事件的经度坐标 updated_on:记录最后更新的日期

2026-02-26

科技招聘与裁员:劳动力数据(2000–2025)

该数据集提供了跨主要科技公司长达25年的历史劳动力动态视图(2000–2025 年)。 它记录了科技行业招聘和裁员如何随着关键经济周期的发展而变化,包括互联网泡沫破裂、2008年金融危机、COVID-19,以及近期科技行业调整后随之而来的人工智能热潮。 每一行代表一个公司在某一年的数据,便于进行时间序列分析、公司间对比,以及宏观经济相关性研究。

2026-02-26

纳斯达克100每日股票数据(2000-2026) 含EDA

数据集包含所有当前纳斯达克100指数成分股的完整历史股市数据,涵盖从2000年1月到2026年2月的每日交易活动。它提供超过514,000行经过清理和拆股调整的价格及交易量数据,涵盖全球最有价值的100家科技、消费和医疗公司。 无论您是在构建LSTM价格预测器、回测交易策略,还是探索行业相关性——该数据集都能满足您的需求。 数据内容: 将所有100只股票合并在一个表格中(514,075行) 数据覆盖亮点 - 对于像AAPL、MSFT、AMZN、NVDA、INTC、AMD、QCOM这样的老牌股票,数据覆盖26年 - 64只股票有20年的历史数据 - 84只股票有10年的历史数据 - 较新的首次公开募股(IPO)自上市日起记录数据(如TSLA自2010年起,META自2012年起,PLTR自2020年起,ARM自2023年起) - 所有价格均已进行拆股调整——无需手动考虑股票拆分

2026-02-26

无人棋牌室 小程序 app uni-app 无人酒店等无人场景小程序解决方案

本项目基于 uni-app 开发,运行和使用本项目,需要安装 uni-app 的开发工具 HBuilderX uni-app 主要是基于 vue 技术,所以你要对 vue 有一定的基础,才能更好的使用以及对本项目做二次开发 无人棋牌室,需要硬件支持,用户在小程序预约后,可通过智能硬件的方式,远程控制包厢门锁开门,手机上即可控制包厢内电器使用,例如开灯、开空调等 硬件可以自行到 “api工厂” 购买,最便宜的一路控制的电路板只要49元

2026-01-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除