自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 问答 (1)
  • 收藏
  • 关注

原创 论文阅读:HySCDG生成式数据处理流程

问题背景双时相变化检测是指:通过对比两个时间点拍摄的卫星或航拍图像,识别地表发生了哪些变化。使用非常高分辨率(VHR)图像进行大规模变化检测对于地球监测(如城市规划、灾害响应、环境监测等)非常重要。这篇论文提出了一种结合真实与生成图像的新颖数据集构建方法 HySCDG,并生成了一个大规模、高质量、适用于多种变化检测任务的混合数据集 FSC-180k,实验证明其性能优于现有合成数据集。变化检测(Change Detection, CD)的重要性。

2025-06-06 14:44:44 1305 1

原创 GLIDE论文阅读笔记与DDPM(Diffusion model)的原理推导

扩散模型(Diffusion model)最近被证明可以生成高质量的合成图像,尤其是当它们与某种引导技术结合使用时,可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型,并比较了两种不同的引导策略:CLIP 引导和无分类器引导。我们发现,人类评估者更倾向于使用无分类器引导方法,无论是在照片真实感还是与文本描述的匹配度方面,该方法通常都能生成具有高度真实感的图像样本。使用无分类器引导的一个 35 亿参数文本条件扩散模型生成的图像样本,在人类评估中优于 DALL-E 的输出

2025-06-03 11:56:20 1006 1

原创 大模型和AI工具汇总(一)

阿里巴巴推出的新一代超大规模语言模型,支持 32K 上下文、多语言交互、代码生成和逻辑推理,提供免费 API 调用额度(每日限流)。:科大讯飞推出的迭代版本,增强多语言翻译、逻辑推理与代码生成能力,支持教育、医疗等垂直场景。:OpenAI 最新多模态模型,支持文本、图像、音频交互,推理能力与生成速度显著提升。:Meta 开源的模型,支持商用免费,提供 8B 与 70B 参数版本,需自行部署。:腾讯自研的多模态大模型,支持文本、图像、视频生成,推理能力显著提升。

2025-05-25 13:52:30 956

原创 BLIP论文笔记

视觉-语言预训练(VLP)已经提升了许多视觉-语言任务的性能。然而,大多数现有的预训练模型只在理解类任务或生成类任务中表现出色。此外,性能提升主要通过扩大从网络收集的噪声图像-文本对数据集来实现,这是一个次优的监督来源。在本文中,我们提出了BLIP,一个新的VLP框架,可以灵活地迁移到视觉-语言理解和生成任务。BLIP通过自举标题的方式有效利用噪声网络数据,其中标题生成器生成合成标题,过滤器移除噪声标题。

2025-05-24 20:51:41 935 1

原创 VILT模型阅读笔记

视觉-语言预训练(VLP)技术已在多种跨模态下游任务中展现出显著性能提升。当前主流的VLP方法高度依赖图像特征提取流程,其中普遍采用区域监督机制(例如目标检测)和卷积架构(例如ResNet)。尽管文献尚未对此进行深入探讨,但我们发现该范式存在两个根本性问题:其一从效率维度来看,输入特征提取环节的计算量远超多模态交互步骤的计算需求;其二就表达能力而言,其性能上限受制于视觉编码器的表达能力和预定义视觉词表的表征范围。针对上述局限,本文提出一种极简的VLP模型——视觉-语言Transformer(ViLT),

2025-05-24 14:11:09 1077

原创 CLIP阅读笔记

最先进的计算机视觉系统经过训练,可以预测一组固定的预定对象类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习有关图像的信息是一种很有前途的替代方案,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像对应的简单预训练任务是一种有效且可扩展的方法,可以在从互联网收集的 4 亿对(图像、文本)数据集上从头开始学习 SOTA 图像表示。预训练后,使用自然语言来引用学习的视觉概念(或描述新的视觉概念),从而实现模型到下游任务的零镜头传输。

2025-05-22 13:35:06 686

原创 CLIP中涉及系列模型的资料

CLIP的实现结合了多个领域的经典工作,包括ResNet、ViT、对比学习(InfoNCE)、高效模型扩展(EfficientNet)等。

2025-05-22 12:59:04 937

原创 CLIP中的被动学习

通过收集互联网上公开的(图像,文本)对(如社交媒体图片配文、网页图片标题等),将自然语言描述作为监督信号,训练模型理解视觉-语言对应关系。与主动学习(active learning)形成对比:主动学习需要模型主动选择"最有价值"的样本进行标注,而CLIP的被动学习完全依赖现成数据,不涉及数据筛选、标注或人工反馈环节。被动学习的优势在于:互联网文本数据体量庞大且持续增长,CLIP通过构建WIT数据集(4亿图文对)证明了这种数据源的可扩展性,远超传统标注数据集的规模限制。

2025-05-22 12:27:34 255

原创 自监督学习与监督学习

监督学习依赖人类标注的真实标签,而自监督学习从数据内部结构构造“伪标签”来驱动学习过程。虽然都用了“标签”,但这些标签不是人为定义的语义类别,而是根据数据本身的变换或结构自动生成的,因此不需要人工参与标注。

2025-05-21 20:48:59 783

原创 马尔可夫决策过程

通过使用<S,P><S,P><S,P>描述一个马尔可夫决策过程,其中SSS为有限数量的状态集合,PPP是状态转移矩阵,大致如下:P=[P(s1∣s1)⋯P(sn∣s1)⋮⋱⋮P(s1∣sn)⋯P(sn∣sn)]\mathcal{P} = \begin{bmatrix} P(s_1|s_1) & \cdots & P(s_n|s_1) \\ \vdots & \ddots & \vdots \\ P(s_1|s_n) & \cdots & P(s_n|s_n) \end{bmatrix}P=​P(s1​

2025-04-23 13:57:51 830

原创 Self-Attention VAD阅读Note

语音活动检测(Voice Activity Detection, VAD)- 一项在音频输入中检测语音的任务。近日阅读了论文《SELF-ATTENTIVE VAD: CONTEXT-AWARE DETECTION OF VOICE FROM NOISE》,发表于2021的ICASSP上,完成了一个说明,便于大家了解该方向的发展。github链接为:https://github.com/voithru/voice-activity-detection。

2025-04-23 13:40:25 800

原创 机器学习计算笔记

简单的说,给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最近邻的k个实例,这k个实例的多数属于哪个类,就把该输入实例分为这个类。通常k是不大于20的整数(特殊的,k=1为最近邻).所以分类重点在于选择合适的:k值(确定选择几个最相近的邻居),距离度量(怎么计算不同邻居之间的距离)和分类决策规则(多数表决,或者其他,根据最近邻的情况确定分类的结果)过程描述:从训练数据集归纳出一组分类规则 可以看作一个if–then规则集合(定义在特征空间上的类的条件概率分布) 一条路径构建一条规则决策树学习包括

2025-04-20 15:06:23 651

原创 数字图像处理知识点小记1

由于编码方式不够高效,导致某些符号(如像素值)的编码长度超出其信息熵所需的最小长度。

2025-04-20 08:45:29 592

原创 2024国赛A问题5

问题五在问题四的曲线的基础上对速度进行了约束,即在逐步改变龙头速度的情况下,各个龙身的速度也会依次改变,给出龙头的最大行进速度,使得舞龙队各把手的速度均不超过 2 m/s。由于本文对于问题三,问题四与问题五的求解涉及到定步长,变步长与双重模拟退火算法等搜索模型,模型搜索的正确性和可靠性直接影响了本题最后结果是否正确,故需要对搜索模型进行检验。其次是对变步长搜索模型的检验,在问题三与问题五的结果分析中均对结果进行了遍历与可视化,可视化图可见图多少,多少,均处于图像的最小值处,可证明该模型的可靠性。

2024-12-26 23:28:09 723

原创 2024国赛A问题三和四

问题三最小螺距单目标优化模型的建立问题二考虑了在螺距固定的条件下计算舞龙队盘入的终止时间,问题三在第二问的基础提出了改变螺距的要求,即求解在螺距最小为多少时,龙头前把手能够沿着相应的螺线盘入到调头空间的边界。故可将其转换为一个单目标优化问题,目标函数为求解最小的螺距,将板凳龙模型中具体物理要求与龙头前把手能够沿着相应的螺线盘入到调头空间的边界作为约束条件,由于该目标函数非线性且较为复杂,故本文采取了带罚函数的双重模拟退火算法与变步长搜索算法结合进行求解。目标函数与约束条件由于此时螺距的取值受到约束条

2024-12-26 23:27:30 538

原创 2024国赛A问题2

由于问题一只考虑了圆孔之间的固定距离与运动状态,问题二需要考虑整个板凳的长度与宽度以及板凳之间相互位置是否产生干扰,故需要在第一问圆孔运动的基础上加入板凳长与宽的具体条件,构建各个板凳的具体数学模型,通过求解板凳各边的数学方程与宽度约束将板凳等效为螺线中的矩形块,同时为各个板凳之间设定0-1决策变量δij​,用于判定第i个板凳与第j个板凳之间是否存在面积交错,若非相邻板凳之间存在面积交错则判断此时存在相撞情况,求解最早出现相撞情况的时间tc​。

2024-12-26 23:26:35 998

原创 2024国赛A题第一问

根据题意,舞龙队沿螺距为55cm的螺线顺时针进入,进入位置为螺线第16圈点A处,即整个螺线的最外侧点,设定其为x0​y0​。为了便于计算出题目要求的结果并将其展示为笛卡尔坐标系对应坐标,本文将螺线中心设定为坐标原点O,建立了。r2πa​⋅θ其中a为螺距,根据题意为55cm。xr⋅cosθ2πa​⋅θ⋅cosθyr⋅sinθ2πa​⋅θ⋅sinθ​​由上述公式即可表述该螺线在平面直角坐标系和极坐标系下的方程。

2024-12-26 23:25:05 611

原创 光通信复习

帧周期是指PCM信号一个完整帧的持续时间:

2024-12-26 23:14:02 893

原创 基于遥感与通信技术的灾害应急测绘

在地震灾害中,通信基础设施严重受损,传统蜂窝网络瘫痪,信号覆盖不足,网络拥塞加剧,为灾害应急测绘体系的数据传输带来了巨大挑战。同时,在信号盲区,通过部署携带通信中继设备的无人机,建立临时通信桥梁,将地面传感器的实时环境数据转发至中心。通过遥感影像、5G通信、人工智能与GIS的协同,灾害信息的获取和处理效率显著提升,为应急决策提供了科学支持。希望这些技术的持续发展能为全球灾害管理提供更有力的支撑,有效减少灾害带来的损失,推动测绘学科与应急管理的深度融合。数据分析阶段采用了云计算与人工智能技术的结合模式。

2024-12-26 23:13:30 1091

原创 社交网络分析的几种方法

总体而言,本次研究的重要价值在于对社交网络深层次结构和动态的理解,以及为社交网络分析提供的新方法和技术。这些成果不仅丰富了社交网络研究领域的理论和实践,也为社交平台的优化和发展提供了宝贵的参考。化与设计建议基于本研究的发现,可以为社交网络的设计和优化提供科学依据和建议。例如,通过理解用户行为和社区结构,社交平台可以更好地设计算法推荐系统,促进健康的社区生态构建,以及增强用户体验。总体而言,本次研究的重要价值在于对社交网络深层次结构和动态的理解,以及为社交网络分析提供的新方法和技术。

2024-12-19 17:02:14 1430

原创 机器学习实战计算

机器学习KNN基本概念简单的说,给定一个训练数据集,对新的输入实例,在训练集中找到与该实例最近邻的k个实例,这k个实例的多数属于哪个类,就把该输入实例分为这个类。通常k是不大于20的整数(特殊的,k=1为最近邻).所以分类重点在于选择合适的:k值(确定选择几个最相近的邻居),距离度量(怎么计算不同邻居之间的距离)和分类决策规则(多数表决,或者其他,根据最近邻的情况确定分类的结果)算法过程计算所有已知类别的点与当前点之间的距离按照距离递增次序排序选取与当前点距离最小的k个点确定前k个点所在

2024-12-18 22:00:49 1025

原创 多束测线问题

问题一符号说明符号说明单位WWW多波束测量覆盖宽度mθ\thetaθ多波束换能器开角°α\alphaα海底坡度°DDD海水深度mη\etaη相邻条带之间重叠率%β\betaβ测线方向与海底坡面的法向在水平面上投影的夹角AiA_iAi​第iii条测线在中心点处多波束换能器的位置BiB_iBi​第iii条测线距中心点最远的波束与海底的交点CiC_iCi​第iii条测线距中心点最远的波束与海底的交点

2024-08-27 10:11:28 1097

原创 定日镜场建模过程

第一问思路求解目标若将吸收塔建于该圆形定日镜场中心,定日镜尺寸均为 6 m×6 m,安装高度均为4 m,且给定所有定日镜中心的位置(以下简称为定日镜位置,相关数据见附件),请计算该定日镜场的年平均光学效率、年平均输出热功率,以及单位镜面面积年平均输出热功率(光学效率及输出热功率的定义见附录)。请将结果分别按表 1 和表 2 的格式填入表格。复述为:在定日镜尺寸,安装高度与所有定日镜中心位置均固定的情况下,计算该定日镜场的年平均光学效率、年平均输出热功率,以及单位镜面面积年平均输出热功率。需要设计一

2024-08-27 10:10:30 1318

原创 最优化第四次作业

首先根据几种算法在求解beta语句上的不同,初步使用选择语句运行四种算法,察看迭代次数和运行时间。下面使用Scipy中定义好的优化器进行优化,求解出最后值作为对照。以二维为例进行可视化,察看迭代路线。

2024-05-17 00:09:33 406

原创 最优化第五次作业

方法名称迭代次数损失值最速下降法3640牛顿法5阻尼牛顿法48拟牛顿法22共轭牛顿法551LMF78经过比较得到,最速下降法的迭代次数最多但是损失值最大,可能与容忍度设置的较大有关,但是其迭代次数确实远多于其他方法牛顿法虽然迭代次数少,但是通过较长时间的调试和初始点的设置,很容易出现错误解,但是阻尼牛顿法,拟牛顿法,共轭牛顿法次数较多,但是均是正确结果LMF方法迭代次数适中,但是结果较少。

2024-05-17 00:08:50 840

原创 最优化方法3

比较奇怪的一点是自己写的BFGS算法和pytorch中内置的算法效果完全不同,pytorch内置的算法效果相当好,可能是存在优化的原因。优化后绘制出其与精确解的图像,发现拟合效果良好,绘制差异值,偏差在0.08以下,说明其拟合效果好。在本方法中,使用了常用于求解损失函数最小值的优化器Adam,并且设置了其学习率为0.01。BFGS方法迭代次数多,运算速度慢,搜索效果一般,在1600次迭代才能收敛到0.01。DFP方法迭代次数少,运算速度快,搜索效果最好,在少数的迭代次数就能收敛到0.01。

2024-04-07 00:50:04 1794

原创 最优化方法2

上图使用了matplotlib对搜索路径进行了可视化,使用trace记录了搜索过程经过的每个点并且将其绘制了出来。下面将使用Sympy库对梯度下降算法进行求导,并使用Latex库将结果转换为LaTeX格式,使其精确一些。发现误差有一点大,可能是在这个精度下取得的最小值点还存在误差,也可能是不同函数计算原理不同。最后第一题得到结果为[1,2]点处最小值为8。使用sympy库进行梯度计算和黑塞矩阵计算。1、编程实现用阻尼牛顿法求函数。下面使用numpy库重新进行计算。

2024-04-07 00:49:19 627

原创 【无标题】

一个系统如果对于任意输入信号的线性组合产生相应的输出信号的线性组合,那么这个系统就是线性的。一个线性系统应该满足叠加性和齐次性,下面是两种性质的讲解及公式。查阅资料与总结数学物理方法,高阶微分方程在数学和工程领域中非常重要,特别是在描述物理系统的动态行为时。一个高阶微分方程是指包含导数的方程,其中导数的阶数大于一。这些方程通常用于描述系统状态随时间变化的复杂关系。在线性时不变(LTI)系统分析中,高阶微分方程扮演着核心角色。一个nantdnytdtnan−1tdn−1。

2024-03-27 20:20:32 647

原创 汇编输出简单字符串

这段代码是一个简单的汇编程序,用于在DOS环境下运行。它展示了如何在屏幕上打印字符串,然后返回DOS。

2024-03-21 10:31:14 347 1

原创 信号与系统思考题1

上图为使用mermaid绘制的流程图,指数函数和三角函数都可以表示频域中的信号,并且两种表示中存在特定的对应关系,下面我将从公式推导的角度进行讲解。在信号处理和频谱分析中,三角函数与指数函数之间的对应关系是基于欧拉公式建立的。通过欧拉公式,我们可以将傅里叶级数的三角函数形式转换为复指数形式,这使得计算变得更为简便。这一过程显示了如何将信号的指数形式转换为更为传统的三角函数形式,从而揭示了两种表示之间的数学联系。这一推导过程基于傅里叶级数和傅里叶变换的定义。根据对两种表示方法的思考和平时课程的使用,我得到,

2024-03-19 21:12:37 1621 1

原创 Opencv基础

它们不仅帮助你理解图像的基本构成,还能在进行图像操作(如裁剪、缩放、颜色空间转换等)时,提供必要的参数信息。在实际应用中,可以通过调整结构元素的大小和形状,以及操作的迭代次数,来达到预期的效果。ORB是另一种快速的特征点检测和描述子算法,它基于FAST关键点检测和BRIEF描述子的改进版。特征检测与匹配是一个强大而复杂的领域,需要根据具体的应用场景选择合适的算法和参数。首先,轮廓检测需要在二值图像上进行,因此通常先将图像转换为灰度图,然后应用阈值处理或Canny边缘检测等方法来获得二值图像。

2024-03-19 21:10:13 1791 1

原创 递归——汉诺塔问题的讲解

关于汉诺塔问题的一个研究

2022-10-28 16:04:38 518

原创 关于打印金字塔类型题目的总结与归纳

对于C语言打印金字塔问题的一个总结与归纳

2022-10-27 20:28:20 178

单片机系统开发过程与51单片机基础知识

内容概要:本文详细介绍了单片机应用系统的开发过程,涵盖了系统总体方案设计、硬件和软件方案设计、在线仿真调试及程序固化运行等步骤。重点讲解了51单片机的结构和工作原理,包括CPU、内部存储器、I/O口、定时器、中断系统、时钟和复位电路等。此外,文章还提供了关于定时器、中断处理和串行通信的具体编程示例,以及硬件扩展和实际应用的相关内容。 适合人群:电子工程、自动化、计算机等相关专业的学生或工程师。 使用场景及目标:适用于单片机应用系统的开发,帮助读者深入理解51单片机的内部结构和工作机制,掌握相关编程技巧。 阅读建议:本文适合初学者和有一定基础的读者系统学习,特别是在进行单片机项目开发时,可以作为参考资料,详细了解各个功能模块的工作原理和编程实现方法。

2024-12-18

数字信号处理期末复习笔记:时域信号、DTFT、DFT、z变换及滤波器设计

内容概要:本文档是数字信号处理课程的期末复习资料,涵盖时域中的离散时间信号、DTFT和采样、离散时间系统、DFT、z变换、滤波器结构及设计等内容。每个章节详细讲解了核心概念、公式推导和例题解析,帮助学生更好地理解和掌握这些知识点。 适合人群:计算机科学与工程专业的大学生,特别是即将参加数字信号处理期末考试的学生。 使用场景及目标:主要用于期末复习,帮助学生巩固和掌握数字信号处理的基本理论和方法,特别是在时域信号处理、频域变换、离散时间系统分析、滤波器设计等方面的知识。通过详细的例题解析,加深对复杂公式的理解和应用。 其他说明:文档内容详实,覆盖了多个章节的核心内容,是备考数字信号处理期末考试的重要参考资料。建议结合课堂笔记和教材一起复习,达到最佳效果。

2024-12-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除