- 博客(170)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 计算机视觉中的Mask是干啥的
摘要: Mask(掩码)是计算机视觉中用于精确标识目标实例空间区域的二值矩阵,本质是像素级指示器(1为目标,0为背景)。在工业检测中,Mask相比矩形框能更精准刻画不规则缺陷(如裂纹、气孔)的形状和边界。其生成过程通过Mask R-CNN等模型实现:定位目标区域→上采样预测像素概率→二值化输出。核心优势包括像素级精度、实例独立性及几何特征可计算性,可直接用于缺陷参数测量。Mask不仅限于0/1形式,还可扩展为概率图或多通道表达,适应复杂场景需求。
2025-12-22 16:07:47
950
原创 快速了解VIT模型
ViT(Vision Transformer)是计算机视觉领域的革命性模型,首次证明纯Transformer架构无需卷积即可在图像识别任务上超越CNN。ViT将图像切分为小块,转化为向量序列后输入标准Transformer编码器处理,通过自注意力机制建模全局依赖关系。尽管ViT在小数据上表现不佳,但在海量数据(如JFT-300M)上显著优于CNN。后续改进模型如DeiT、Swin Transformer等通过知识蒸馏、层次设计等优化,使其适用于工业检测等场景。ViT及其变体打破了CNN在视觉任务中的垄断地位
2025-12-22 15:38:04
617
原创 TextToSql——Vanna的安装与使用
摘要:Vanna 2.0是一个基于LLM的AI代理框架,允许用户通过自然语言与数据库交互。本文演示了如何通过Python代码配置Vanna,包括设置Ollama大模型服务、MySQL数据库连接以及用户认证系统。安装所需依赖后,运行FastAPI服务即可通过网页界面(端口8011)与数据库对话,示例展示了查询数据库表结构和筛选23岁员工等操作。该框架支持SQL执行、数据可视化等功能,提供直观的数据库交互体验。
2025-12-10 16:41:13
186
2
原创 运行docker镜像时OpenBLAS blas_thread_init的报错解决
运行docker镜像时OpenBLAS blas_thread_init的报错解决
2025-11-24 16:53:27
134
原创 VAE善于处理高度结构化的数据吗
VAE(变分自编码器)擅长处理具有复杂内部结构的数据,如图像、音频、文本等,能有效学习其潜在概率分布和层次特征。但对于传统表格型结构化数据(如数据库表),VAE并非最优选择,这类数据更适合梯度提升机或专为表格设计的生成模型。因此,VAE的核心优势在于处理非表格的复杂结构数据,而非行列分明的结构化数据。
2025-10-09 15:12:49
374
原创 theano.scan 起什么作用
theano.scan是Theano库中实现循环操作的核心函数,主要用于处理RNN/LSTM等模型的重复性计算结构。它通过将循环编译为计算图,支持自动微分和GPU加速,并能处理变长序列。基本语法包括定义扫描体函数(fn)、输入序列(sequences)、初始状态(outputs_info)、固定参数(non_sequences)和循环次数(n_steps)。示例展示了如何用scan构建简单RNN,包括定义符号变量、扫描体函数、调用scan以及编译执行。该功能极大简化了循环神经网络的实现和优化过程。
2025-09-30 15:21:15
350
原创 VRNN论文总结
本文重点解析了论文《A Recurrent Latent Variable Model for Sequential Data》中的关键问题。首先阐明了在RNN-Gauss/GMM模型中,输入数据x_t的微小变化成为系统唯一随机性来源的原因,并解释了RNN需要将这种微小变化映射到隐藏状态h_t的巨大变化上,以处理语音等高信噪比序列的建模需求。其次,分析了"高度结构化输出函数"的概念,指出复杂分布(如GMM)比单高斯分布更能捕捉数据中的多峰特性。最后详细解释了论文中语音信号表示为200维帧
2025-09-30 15:09:03
1135
原创 论文《A Recurrent Latent Variable Model for Sequential Data》翻译
本文提出了一种结合变分自编码器(VAE)和循环神经网络(RNN)的变分循环神经网络(VRNN)模型,用于建模高度结构化的序列数据。该模型通过引入时间依赖的潜在随机变量,解决了传统RNN在建模复杂序列变异性方面的局限性。VRNN使用RNN隐藏状态参数化潜在变量的先验分布,从而建立跨时间步的依赖关系。实验在语音和手写数据集上验证了该方法的有效性,结果表明VRNN在序列建模任务上优于标准RNN以及不考虑潜在变量时间依赖性的变体。这项工作为序列生成模型提供了一种新思路,通过结合确定性状态转移和随机潜在变量来增强模型
2025-09-26 17:53:39
1037
1
原创 自注意力机制(Self-Attention)简介
Transformer是一种基于自注意力机制的深度学习模型,由Google在2017年提出,成为BERT、GPT等大模型的基础架构。其核心包括Encoder-Decoder结构、多头自注意力机制、位置编码和前馈神经网络等组件。本文详细解析了Transformer的原理,包括自注意力计算、多头注意力机制、位置编码实现方式等关键技术。同时提供了一个简化版的PyTorch实现,展示了基本模型结构、位置编码以及因果掩码生成方法。该模型适用于序列到序列任务,如机器翻译,通过嵌入层、位置编码和Transformer层实
2025-09-23 17:08:06
1641
原创 RNN-Gauss / RNN-GMM 模型的结构
摘要: RNN-Gauss和RNN-GMM是结合RNN与概率分布的时间序列预测模型。RNN-Gauss输出单峰高斯分布(μ,σ),预测值并量化不确定性;RNN-GMM扩展为高斯混合模型,可捕捉多模态数据分布。二者均通过负对数似然损失训练,前者适用金融预测等需不确定性估计场景,后者更适合语音生成等多模态问题。关键区别在于RNN-GMM通过混合权重支持多峰预测,参数量更大但表达能力更强。这类模型实现了深度学习与概率模型的优势互补。
2025-09-23 16:55:32
586
原创 使用yolov8对视频进行目标检测
基于YOLOv8的视频目标检测实现指南 摘要:本文介绍了使用Ultralytics YOLO模型进行视频目标检测的完整流程。通过安装ultralytics和opencv-python依赖,用户可快速实现视频逐帧检测并保存结果。文章提供了基础代码实现,包括模型加载、视频处理、结果绘制和输出保存等关键步骤。同时介绍了多种功能扩展:特定类别检测、置信度阈值调整、检测数据保存和实时摄像头处理。性能优化方面建议使用GPU加速、跳帧处理和降低分辨率。还特别给出车辆检测与计数的完整案例,并解答了视频播放、检测速度慢等常见
2025-09-17 10:32:05
1866
原创 关于深度学习中重参数化的总结
摘要: 重参数化技巧是VAE中的关键方法,解决了随机采样导致的梯度中断问题。传统采样操作不可导,无法反向传播梯度。重参数化将随机性转移到外部噪声$\varepsilon \sim \mathcal{N}(0,1)$,通过确定性变换$z=\mu+\sigma \cdot \varepsilon$实现可导,使梯度能传回编码器的参数$\mu$和$\sigma$。该方法将采样过程转化为“确定性计算+外部噪声”,既保留随机性又支持端到端训练。PyTorch实现中,通过独立采样$\varepsilon$并计算$z$,确
2025-08-04 16:33:00
916
原创 参数高效微调(PEFT):大模型时代的轻量级解决方案
本文介绍了参数高效微调(PEFT)技术,该技术通过在预训练大模型中仅更新少量参数来解决传统微调方法资源消耗大、易导致灾难性遗忘的问题。文章分析了PEFT的优势(高效性、稳定性、灵活性)和主流方法(Adapter、LoRA、Prefix Tuning、Prompt Tuning),并探讨了其在多语言翻译、个性化推荐等场景的应用。最后指出PEFT的未来发展方向,强调其作为大模型轻量级微调解决方案的重要价值,适合不同层次的研究者参考实践。
2025-07-25 15:00:09
1171
原创 经验累积分布函数VS累积分布函数
摘要:累积分布函数(CDF)和经验累积分布函数(ECDF)是描述数据分布的两种方法。CDF基于理论概率分布,适用于已知分布的理论分析;ECDF基于样本数据,是CDF的非参数估计,适用于未知分布的实际数据分析。CDF为平滑曲线,ECDF呈阶梯状。随着样本量增加,ECDF会逼近真实CDF。两者在理论研究和数据探索中各有优势,CDF用于建模预测,ECDF用于无参数分析和异常检测。
2025-07-25 10:34:47
920
原创 我问deepseek,作为一名java兼大数据程序员,如何实现技术移民,感觉好难!!!
Java和大数据程序员技术移民指南:选择目标国家(如加拿大、澳大利亚、美国等),提升语言能力(雅思/托福),完成学历认证,积累2-3年工作经验。重点优化技术移民评分(年龄、语言、学历、经验),考取AWS/Google等技术认证,参与开源项目。热门国家对IT人才需求旺盛,需准备护照、成绩单、工作证明等材料。建议分阶段规划,咨询专业中介,关注最新移民政策。技术背景是核心优势,合理规划可实现移民目标。(149字)
2025-07-11 11:55:44
747
原创 BP神经网络对时序数据进行分类
本文介绍了使用PyTorch实现BP神经网络对时间序列数据进行分类的方法。首先生成三类时间序列数据(正弦波、锯齿波和方波),并进行数据预处理和划分。然后定义了一个包含全连接层和ReLU激活的BP神经网络模型,通过交叉熵损失和Adam优化器进行训练。实验结果显示模型在测试集上达到95%的准确率。文章还提出了改进方案,如增加隐藏层、使用正则化和调整学习率。该方法适用于简单时间序列分类任务,对于更复杂数据可考虑LSTM或Transformer等模型。
2025-07-11 11:49:46
672
原创 RapidMiner Studio中执行python代码并绘制频谱图
本文介绍了如何在RapidMiner Studio 10.3中使用Python代码绘制时序信号的频谱图。主要内容包括:首先检查并安装Execute Python扩展算子,配置Python环境;然后构建流程图,通过Read CSV算子导入数据;接着在Execute Python算子中输入代码执行FFT频谱分析,计算频率和振幅;最后查看运行结果。文中详细说明了各步骤的参数设置和代码实现,并提供了示例数据和运行结果展示。该方法利用RapidMiner与Python的结合实现了时序信号频谱分析功能。
2025-06-06 17:43:18
370
原创 图神经网络原理及应用简介
摘要: 图神经网络(GNN)是处理图结构数据的深度学习模型,通过消息传递机制聚合节点及其邻居信息。核心流程包括节点特征初始化、消息生成与聚合(如求和或注意力)、多轮迭代更新及下游任务输出。主流变体包括GCN、GAT、GraphSAGE和GIN,分别基于卷积、注意力、采样或同构理论优化。GNN广泛应用于社交网络、生物信息学、推荐系统等领域,优势在于灵活性和表达能力,但面临计算复杂、过平滑等挑战。未来需提升效率与泛化能力以应对实际需求。
2025-06-03 17:39:31
1133
原创 使用LSTM进行时间序列分析
LSTM(长短期记忆网络)是一种专为时间序列数据设计的循环神经网络,通过门控机制(输入门、遗忘门、输出门)和细胞状态有效捕捉长期依赖关系。相比传统方法,LSTM能更好处理时间序列的非线性、噪声和长期模式。典型应用流程包括数据生成(如带噪声的正弦波)、滑动窗口预处理、PyTorch模型构建(含LSTM层和全连接层)、训练及预测可视化。实验显示LSTM能准确预测时间序列趋势。其优势在于长期依赖性建模、鲁棒性强,并可扩展为双向LSTM、堆叠LSTM等变体。LSTM已成为时间序列分析的核心工具之一。
2025-05-28 17:45:47
1109
原创 多模态简介
摘要: 多模态方法通过融合时间序列、图像、文本等不同数据源提升任务性能。其优势在于克服单一模态的局限性,增强鲁棒性和预测精度,但需解决特征对齐、跨模态建模等挑战。实现上,需完成数据预处理(时间/空间对齐、清洗)、特征提取(统计、深度学习)、融合策略(早期/中期/晚期融合、注意力机制),并选择合适模型(传统机器学习、深度学习、GNN等)。实验验证多模态性能需对比单模态方法,评估指标包括准确率、F1分数等。核心在于数据对齐、特征融合与模型优化,适用于工业监控、医疗健康等领域。
2025-05-28 17:13:26
1478
原创 PINN是否需要对空间进行网格化
传统数值方法求解PDE需要网格化的原因 传统数值方法(如有限差分、有限元)求解偏微分方程必须进行空间网格化,主要原因包括: 连续问题离散化 - 将无限维连续问题转化为有限维离散问题,便于计算机处理; 局部性假设 - 导数计算依赖邻近网格点关系(如二阶差分公式); 计算可行性 - 网格化后转化为稀疏线性方程组,可通过高效数值方法求解。 PINN方法无需网格化的优势 物理信息神经网络(PINN)通过以下机制避免网格化: 函数逼近 - 神经网络直接参数化解函数,输入空间坐标即可输出解值; 自动微分 - 利用反向传
2025-05-28 15:44:23
1234
原创 np.r_的用法
np.r_ 是 NumPy 中的一个便捷工具,主要用于快速拼接数组或生成序列。它通过索引语法简化了数组操作,特别适用于按行拼接多个数组或生成等差序列。np.r_ 支持多种输入形式,包括数组、切片表达式和标量值,能够灵活地生成一维数组或拼接二维数组。与 np.c_ 不同,np.r_ 按行拼接数组,而 np.c_ 按列拼接。np.r_ 的简洁性和灵活性使其成为处理数组时的得力工具,适用于快速拼接、生成序列以及混合使用多种数据类型。
2025-05-19 17:31:56
527
原创 孤立森林和随机森林主要区别
孤立森林(Isolation Forest)是一种高效的异常检测算法,特别适用于高维数据。其核心思想是通过随机分割数据来快速隔离异常点,利用路径长度判断异常。与随机森林不同,孤立森林是无监督学习,目标为异常检测,分裂方式为随机选择特征和分割点,树的深度较浅,适用于网络安全、金融风控等领域的异常检测任务。孤立森林具有高效性、无需标签和对高维数据友好的优点,但也存在参数敏感性和对局部密度差异敏感的局限性。通过Python的sklearn库可以轻松实现孤立森林模型,并进行异常检测。
2025-05-19 17:29:00
1567
原创 整合 CountVectorizer 和 TfidfVectorizer 绘制词云图
本文分别整合 CountVectorizer 和 TfidfVectorizer 绘制词云图
2025-04-25 17:36:17
1144
原创 langchain之agent系列:zero-shot-react-description agent
langchain之agent系列:zero-shot-react-description agent
2025-04-10 14:55:19
462
原创 langchain、langsmith、langgraph分别是干什么的
langchain、langsmith、langgraph分别是干什么的
2025-04-01 17:26:31
1776
原创 Spring中BeanFactoryPostProcessor和BeanPostProcessor的区别
Spring中BeanFactoryPostProcessor和BeanPostProcessor的区别
2025-03-18 09:40:30
797
论文《A Recurrent Latent Variable Model for Sequential Data》
2025-09-29
经典力学教材:Goldstein, Poole, Safko 第三版的详细解析与应用
2024-12-26
带高度和重量限制的最低水平线搜索算法代码
2022-10-08
手写数字的数据集MNIST
2022-09-28
一维背包问题和二维背包问题根本区别
2022-10-14
sklearn中SpectralClustering怎么获取聚类中心
2022-08-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅