- 博客(46)
- 收藏
- 关注
原创 相片底色调整程序开发
大家好,我是水龙吟啸。今天这一期“灵感与思考”来自于我的一次志愿服务经历。那次志愿服务要求上传白底大一寸相片,但是我手头里仅有蓝底大一寸照片,无论是浏览器还是小程序或者app(比如美图秀秀),很多工具都需要付费才能使用这一项功能。总的来说,除了文件格式要求必须是jpg外,最基本的四个要求是:相片分辨率(295x413)、相片背景色(白色)、相片dpi(300)、文件大小(300-500KB)。
2026-01-13 12:46:11
642
原创 SFM逆向扫描工程:重建3D物体
这篇文章的灵感来自学习3D视觉算法知识点后课外的思考和自由探索,目前经过不完全的算法实验验证,成果差强人意,经过分析是数据采集的问题而非算法的设计问题。我将采取大白话+行云流水的方式分享一种新算法:通过一台RGBD深度相机对一个场景中的摆件或者物体进行360°角的环绕拍照,得到4张-12张照片(或者更多),并还原出其数字化的3D模型。
2026-01-06 17:05:40
1227
原创 项目设计与开发:智慧校园食堂系统
说明:本项目系华南理工大学五人团队根据相关课程要求设计开发的项目,融合【前端MVC和AspNetCore页面-后端EFCore+SQLite数据库-机器学习和统计学习预测】三链条技术栈。同时包括3个月校园食堂高精度仿真数据的制备环节。本文是个人独立撰写的记录该项目设计和技术开发流程的博文,使用英文记述。
2026-01-01 15:43:22
696
原创 基于Orbbec-Gemini深度相机与SFM-2D to 3D重建算法、手部识别视觉算法、Unity运动控制的3D水果切割游戏
说明:由华南理工大学五人团队设计开发的3D水果切割游戏,目前未进行游戏打包发布,只能在Unity游戏引擎内编译运行体验,当前版本v1.0。本文基于原项目报告改版而成,原版本系5人共同写作完成。本文是关于该游戏项目开发的更详细的技术分享,同时包括一些项目的开发日志。
2026-01-01 15:18:40
1089
1
原创 Experiment 4: Design of a LED button controller
说明:本系列文章记录了数字系统设计实验课程的内容(英文),在原内容要求的基础上融入个人思考和延伸,方便后续笔者自行复习和使用,也可用于相关领域初学者的知识巩固。本篇文章主要研讨使用Quartus II 13.0和ModelSim进行LED按键控制器的设计和仿真调试、板上烧录调试的相关内容。
2025-12-29 12:46:28
847
原创 Experiment 3: Design of a vending machine
说明:本系列文章记录了数字系统设计实验课程的内容(英文),在原内容要求的基础上融入个人思考和延伸,方便后续笔者自行复习和使用,也可用于相关领域初学者的知识巩固。本篇文章主要研讨使用Quartus II 13.0和ModelSim进行门票售卖机的设计和仿真调试的相关内容。
2025-12-29 12:15:38
946
原创 Experiment 2: Design of data encryption system
说明:本系列文章记录了数字系统设计实验课程的内容(英文),在原内容要求的基础上融入个人思考和延伸,方便后续笔者自行复习和使用,也可用于相关领域初学者的知识巩固。本篇文章主要研讨使用Quartus II 13.0和ModelSim进行数据传输加密系统的设计和仿真调试的相关内容。
2025-12-29 12:09:45
897
原创 Experiment 1: Combinational logic circuit design with VHDL
说明:本系列文章记录了数字系统设计实验课程的内容(英文),在原内容要求的基础上融入个人思考和延伸,方便后续笔者自行复习和使用,也可用于相关领域初学者的知识巩固。本篇文章主要研讨使用Quartus II 13.0和ModelSim进行4位行波进位加法器的设计和仿真调试的相关内容。
2025-12-29 11:51:05
694
原创 奥比中光深度相机实战:三维物体点云重建、轮廓提取与人脸鉴伪
本文介绍了基于奥比中光Gemini深度相机的3D视觉处理实战,包括RGBD数据采集、点云重建、物体轮廓提取和人脸鉴伪等功能实现。首先说明了硬件配置和Python开发环境要求,详细讲解了深度图与RGB图的数据获取方法,以及从深度图到xyzrgb点云的转换原理。在3D物体轮廓提取部分,提出了一套基于深度图二值化分割、形态学处理和梯度计算的完整流程。人脸鉴伪方案通过检测5个关键点的深度信息标准差来区分真实人脸与平面图像。最后探讨了将这些功能实时化的方法,并提供了完整源代码获取途径。
2025-11-09 23:19:24
1223
原创 计算机3D视觉:Pytorch3d的环境配置与初步使用
本篇博文实验内容参考自MIT实验课程:**16-825 Assignment 1: Rendering Basics with PyTorch3D (Total: 100 Points + 10 Bonus)**,素材相同,但是结合笔者自己的经验做了详细的讲解,还加入了一些内容的修改和创新。
2025-10-29 18:54:27
1211
原创 从零开始搭建深度学习大厦系列-4.Transformer生成式大语言模型
最近在学习文本预处理(分词与词和位置嵌入)、自注意力机制(Self-Attention)、多头自注意力机制、Transformer Block和GPT-2、GPT-3的基本架构。本文是相关内容的第一篇文章,主要讲解大模型的基础架构和代码构建过程。
2025-09-23 23:56:24
1085
4
原创 CIFAR100数据集实测-基于 AlexNet模型的压缩/Bagging/Boosting 探索
CIFAR100数据集实测-基于 AlexNet模型的压缩/Bagging/Boosting 探索注:笔者使用的深度学习框架为pytorch,使用COLAB NVIDIA TESLA T4 GPU(2560个CUDA 核) / Intel i5 CPU / NVIDIA RTX GeForce 5070显卡(6144个CUDA核,需要安装>=2.8.0的torch版本,见)训练模型,操作系统为Windows11。代码文件已经上传个人中心-资源,可以免费下载使用。
2025-07-27 21:23:37
972
原创 深度学习与计算机视觉-语义分割-UNet手编重现与项目实战
The project reconstructs UNet model(proposed in 2015) by hand, training and evaluating the model on ISIC-2017 challenge dataset in order to: (1)Well master the architecture and principle of UNet and better understand how new ideas are born; (2)...
2025-07-14 13:45:46
1043
原创 从零开始搭建深度学习大厦系列-3.卷积神经网络基础(5-9)
【2】单CPU核训练背景下的时间花费组成和实验验证,以及函数接口的加速效果;【3】学习率、优化方法、批量大小、激活函数等超参数(Hyperparameters)的调参方法;【4】卷积神经网络(LeNet,1998)和深度卷积神经网络(AlexNet,2012)在MNIST,Fashion_MNIST,CIFAR100数据集上的表现与一种可能可行的参数量自适应调整方法;【5】CNN激活层特征可视化,直观比对人工设计卷积核的滤波效果,理解CNN的信息提取过程;【6】混淆矩阵作用分析,绘制混淆矩阵
2025-07-10 23:43:46
1102
原创 从零开始搭建深度学习大厦系列-2.卷积神经网络基础(5-9)
本篇主要分析:【1】CNN卷积神经网络中卷积层、池化层、批规范化层、激活层、“暂退层”的作用原理;
2025-07-10 23:27:01
1356
原创 DSP+软件开发——Audio-Transformer的诞生之路(三)
Github仓库链接:https://github.com/wawaforest4689/Audio-Transformer软件开发语言为Python语言,因为Python提供了更丰富的音频信号处理工具,如ffmpeg、pydub、spleeter等。探究内容为探究采样率与量化级数对音频信号质量的影响、探索自定义不同噪声背景下的音频信号以及不同滤波方法的去噪效果、探究音乐处理常用的回声/混响效果的实现机制、探索均衡器的从零搭建方法、拓展功能(人声分离、音频叠加、去除静音)。
2025-07-01 18:19:09
761
原创 DSP+软件开发——Audio-Transformer的诞生之路(二)
Github仓库链接:https://github.com/wawaforest4689/Audio-Transformer软件开发语言为Python语言,因为Python提供了更丰富的音频信号处理工具,如ffmpeg、pydub、spleeter等。探究内容为探究采样率与量化级数对音频信号质量的影响、探索自定义不同噪声背景下的音频信号以及不同滤波方法的去噪效果、探究音乐处理常用的回声/混响效果的实现机制、探索均衡器的从零搭建方法、拓展功能(人声分离、音频叠加、去除静音)。
2025-06-30 20:07:38
846
原创 DSP+软件开发——Audio-Transformer的诞生之路(一)
Github仓库链接:https://github.com/wawaforest4689/Audio-Transformer软件开发语言为Python语言,因为Python提供了更丰富的音频信号处理工具,如ffmpeg、pydub、spleeter等。探究内容为探究采样率与量化级数对音频信号质量的影响、探索自定义不同噪声背景下的音频信号以及不同滤波方法的去噪效果、探究音乐处理常用的回声/混响效果的实现机制、探索均衡器的从零搭建方法、拓展功能(人声分离、音频叠加、去除静音)。
2025-06-30 19:47:43
769
原创 数字FIR-I型滤波器设计(窗函数法)
设计线性相位带阻FIR滤波器,其性能指标为:采样频率Fs=20kHz,通带截止频率分别为:Fp1=2kHz、Fp2=8kHz,阻带截止频率分别为:Fs1=3kHz、Fs2=6kHz,通带波纹容限为。采用窗函数法设计出具有最小长度的线性相位FIR滤波器,并画出滤波器的幅频和相位响应。采用窗函数法设计出具有最小长度的线性相位FIR滤波器,并画出滤波器的幅频和相位响应;设计带通滤波器(电平组合法,(理想宽带低通-理想窄带低通)x窗函数)带阻滤波器(电平组合,(理想低通+高通)x窗函数)
2025-06-30 19:37:52
386
原创 计算机组成原理与体系结构-实验四 微程序控制器 (Proteus 8.15)
1、理解“微程序”设计思想,了解“指令-微指令-微命令”的微程序结构。2、掌握微程序控制器的结构和设计方法。
2025-06-29 18:56:18
1465
原创 计算机组成原理与体系结构-实验三 存储器(Proteus 8.15)
具体的映射关系如下图,需要把外部空间的0x000-0x1FF对应到ROM的0x000到0x1FF(13位表示,这里最高位(内部偏置)是0,用十六进制简化表示),把0xF80-0xFFF对应到RAM的0x80-0xFF(最高3位是000,内部偏置是0)。12位地址空间address的MSB(address[11])对应片选信号(E1),address[10:8]输入译码器,根据要求图(图11),对于RAM这三位都是1,还需要结合address[7]的值(相当于又一个外部偏置),所以RAM的片选输入信号。
2025-06-29 18:44:56
1003
原创 计算机组成原理与体系结构-实验二 ALU(Proteus 8.15)
8、启动仿真后,SW_BUS=0,使用拨码开关,选择一个8位的二进制值0xAA,将 DRA-CLK置为1,将值存进锁存器DRA,再将DRA-CLK置为0,再次使用拨码开关, 选择一个8位的二进制值0x55,将DRB-CLK置为1,将值存进锁存器DRB,再将 DRB-CLK置为0,再令SW_BUS=1。2、放置多个单刀双掷开关,用来控制S0,S1,S2,S3,CN,M,还有ALU输出 (低电平有效),DIPSWC_8(低电平有效)输出和两个存储A和B的寄存器,并且都 高电平连接电源,低电平接地。
2025-06-29 18:39:55
1155
原创 计算机组成原理与体系结构-实验一 进位加法器(Proteus 8.15)
特点:采取空间换时间的方法,优点是在计算效率上高于行波进位加法器,但是缺点是在硬件电路方面设计更复杂,对于n位输入的先行进位加法器,最大需要用到fan_in=(n+1)的与门和或门,考虑到连接的复杂度和器件的功率和供电情况,一般来说这种加法器用在4位输入较多,如果是8位或者16位、32位的加法器,可以采用4.1行波进位加法器的方法连接2个、4个或8个先行进位加法器,把图中的FA换成4位输入的先行进位加法器即可。其实这不仅仅是一个空间换时间的问题,也涉及到布局和设计,包括对门电路的理解,体现了人类的智慧。
2025-06-29 18:35:21
926
原创 从零开始搭建深度学习大厦系列-1.深度学习基础(1-4)
说明:(1)本人挑战手写代码验证理论,获得一些AI工具无法提供的收获和思考,对于一些我无法回答的疑问请大家在评论区指教;(2)本系列文章有很多细节需要弄清楚,但是考虑到读者的吸收情况和文章篇幅限制,选择重点进行分享,如果有没说清楚或者解释错误的地方欢迎在评论区提出;(3)由于许多内容来自本人课程报告,要求用英文撰写,这里就不翻译成中文了;同时提出了不同的代码实现方案和分析思路。本篇文章主要分析全连接层(FC)、多层感知机(MLP)超参数(HP)的作用原理和调整方法,以及数据预处理的方法。
2025-06-16 13:11:37
933
原创 数据结构与算法大作业分享:城市灾情应急救援调度模拟与优化
数据结构与算法课程设计:一个基于城市灾情应急救援场景下救援队调度规划的仿真项目,基于三种贪心算法实现18种细分调度策略,根据科学有效的救援结果评估机制完成两种形式的参数优化功能,同时提供友好的交互界面以供演示,可调参数优化功能支持测试文件存储和并行计算搜索。
2025-06-13 13:42:37
724
原创 数字信号处理大实验2.1(基础) 快速傅里叶变换与FFT的时域频域对称性质
本文探讨(1)快速傅里叶变换的实现原理和不同代码实现方式,并于MATLAB内置的FFT作了横向比较;(2)FFT的时域频域对称性质;(3)频谱泄露与频偏概念的
2025-05-25 14:06:44
790
原创 数字信号处理大实验2.2(工程应用模拟) 利用FFT估计信号的频率
掌握频偏的概念,加深对于DFTDFT的常用性质(时移频移等)的理解;设计具备一定准确性、鲁棒性的算法,估计单频正弦型信号的真实频率;探究采样率固定时,采样区间长度、起始采样点、被测信号真实频率对于计算精确度和稳定性的影响。在无噪声干扰条件下,用8000 Hz采样率对某387Hz频率正弦信号进行采样,采集了77个样点作为原始信号。1、在知网、IEEE网站等查找频率估计方法,利用至少两种频率估计方法编程求给定信号的频率;
2025-05-23 22:33:40
890
原创 数字信号处理-大实验1.3
本文是DSP大实验1的最后一篇,主要讲解效果更优的倒谱法的原理和代码实现,难度大于1.2,不明白欢迎格物,有问题欢迎交流。
2025-05-14 20:13:32
851
原创 数字信号处理-大实验1.2
大实验1分为3个部分,本文隶属于第二部分,对应应用实验的基础要求和原理讲解、短时分帧ACF自相关系数方法的代码实现,难度比1.1大。
2025-05-14 20:00:24
747
原创 关于汽车转向灯、双闪灯控制电路的原理思考
时钟信号(CLK)是时序计时器(Sequential Timer)产生的信号,是数字逻辑电路(Digital Logic Circuit)中关于时序逻辑电路的核心器件,其参数、性能直接决定了工业产品应用的成本和竞争力。可以使用S-R Latch(置位复位锁存器)消抖,通过开关1、2和上拉电阻的连接,当司机拨动方向盘旁边的转向柄时,输出端电平由低跳到高,后端连接一个去除尾部反相器的上升沿检测器(可以通过反相器和与非门实现),产生一个下降沿在前的短脉冲信号。本文旨在讨论汽车转向灯的电路控制逻辑和大体设计框架,
2025-04-26 18:09:17
1660
原创 数字图像处理—第7练
此处每个格子本义代表一个像素,但是笔者此处为了图像的直观呈现、视觉效果以及帮助对腐蚀操作的理解,将每个像素扩展成nxn(在文末代码中使用base表示n)的像素群,将不完整的结构元扩充成3x3x(nxn)的结构元(本文术语把结构元和kernel等效),base设置成比实际像素块尺寸稍小的奇数值(比如27、29),最小需要大于真实像素块尺寸的一半,背后的原因可以作为。Figure 13 用像素群2(block2)模拟像素点-理解“膨胀”操作(实际实验过程步骤:取反-5x5腐蚀(含二值化)-膨胀)
2025-04-23 18:31:21
978
原创 数字图像处理-第6练
思路:通过空间转换(BGR到HSV)、饱和度阈值判定(因为蘑菇的颜色是黄色,相比于灰色桌面和白色篮子最明显的区别在于黄色有高得多的饱和度)提取黄色蘑菇表面区域;而后通过Sobel一阶差分算子(x-y型)提取蘑菇外轮廓信息(共有5个蘑菇,成功率100%)。描述:提取灯带的主要横轴线。第二个参数为1表示灰度值规划化处理到[0,255]通过 “削峰填谷”的方法,为2表示通过先将所有数值转正之后,压缩到[0,255]区间。Figure 2 局部动态法(0.4, 8)+拉普拉斯掩膜(2, 2)
2025-04-17 18:06:05
282
原创 数字图像处理-第5练
图像分割(续):基于灰度图一阶、二阶差分的轮廓提取。与孤立点、直线的定位和提取原理不同,轮廓提取只根据灰度图的不连续性进行一二阶差分计算,不涉及阈值化二值的相似度处理。
2025-04-17 18:02:35
871
原创 数字图像处理—第4练
分清不连续性(discontinuity)和相似度(similarity)两个概念,基于图像二值分割的点、线提取首先需要对灰度图进行特殊的空间滤波处理(mask,template,kernel),也就是利用不连续性的特性;彩色图像奇异点提取,kernel 3x3,夜空中的星星很适合作为奇异点,可以发现其实图像中有很多人眼看不见的恒星,由于距离和恒星的温度、体积等因素,视星等太低进而无法被人眼察觉,但是可以通过特殊的方法使人们看到隐藏的恒星,DIP提供了一种可能性!然后进行局部动态和全局静态算法处理。
2025-04-15 22:43:11
809
原创 数字图像处理—第3练
又是一年春季,“草长莺飞二月天,拂堤杨柳醉春烟”。百花齐放的时节,既然如今抽不开身、无法亲身驻足于花海之中,那就姑且在线上先浅浅地赏一赏五彩缤纷的花朵吧!顺便让花海更突出、更“好看”些。一张彩色风景图像,图像格式为常见的 RGB(红、绿、蓝)颜色空间存储。:将原始的 RGB 图像转换为 HSV(色调、饱和度、明度)颜色空间。了解为什么在某些图像处理任务中,HSV 颜色空间比 RGB 颜色空间更具优势。
2025-04-10 00:15:30
747
原创 数字图像处理—第2练
注:在cv2中,单通道且位深为8或16的图像(即8U,uint8)色相H的范围有两种,根据是cv2.BGR2HSV_FULL和cv2.BGR2HSV的不同,可以是[0,180]或者[0,255]的整数;对于饱和度S和亮(灰)度值V,如果输入图像是8U,那么范围是[0,255],如果是32F,S的范围是0-1的小数,根据RGB的范围是0-255(此时数据类型是浮点数)还是0-1,V可以是0-255或者0-1。图 4 黄绿色段、青蓝色段、紫红色段、红黄色段-7颜色增强,饱和度100%,亮度90%
2025-04-08 21:27:29
429
原创 堆排序法(H)、归并排序法(M)、快速排序法(Q)实际排序速率分析
对于相同且分布范围广的数据,堆排序、归并排序、快速排序三种常见的排序算法存在明显的实际运行时间差异,本文尝试通过含有具体系数的等价理论分析,结合模拟实验进行验证,给出合理的解释。
2025-03-31 13:36:47
706
从零开始搭建深度学习大厦系列-4.Transformer生成式大语言模型:源代码
2025-09-24
CIFAR100数据集实测-基于AlexNet的压缩/Bagging/Boosting探索
2025-07-27
深度学习项目实战(代码):Medical Image Segmentation System Based on UNet
2025-07-14
卷积神经网络基础:2、MxNet框架下,LeNet的完整实现与AlexNet的“压缩”实现
2025-07-11
卷积神经网络基础:1、边缘提取的手工卷积核设计+卷积层手编互相关实现+1x1快速卷积(矩阵乘法)实现
2025-07-11
深度学习基础(机器学习)代码:2、单层全连接层(FC)多分类任务(softmax+cross entropy)
2025-06-16
深度学习基础(机器学习)代码:3、多层感知机与多分类任务实战(Fashion-MNIST 10分类)
2025-06-16
深度学习基础(机器学习)代码:4、数据预处理与超参数规律(尝试挑战Kaggle房价预测问题)
2025-06-16
信号与系统工程实践-ECG(心电图)信号去噪与分析:双通道心电信号(数据)
2025-02-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅