- 博客(56)
- 资源 (21)
- 收藏
- 关注
原创 配置 OpenClaw 使用 Ollama 本地模型
本文介绍了如何配置OpenClaw使用Ollama服务的Qwen3-VL 2B模型。首先需确保Ollama服务运行且模型已下载,然后编辑配置文件指定模型提供商和默认模型。配置包含设置API地址、模型参数(如contextWindow和maxTokens)等细节。修改完成后需重启网关服务,最后可通过TUI界面测试对话功能。注意事项包括确保服务地址匹配、模型ID正确等。配置文件示例展示了完整的参数设置方法。
2026-02-05 20:27:59
2358
原创 ViT系列网络系统性分析:从架构创新到未来趋势
Vision Transformer(ViT)系列模型在2020-2023年间经历了从奠基到优化的快速发展。奠基期(2020-2021)通过ViT、DeiT、Swin Transformer等模型验证了Transformer在视觉任务中的可行性,解决了数据依赖、计算效率等问题。优化期(2022-2023)则聚焦效率提升和泛化能力突破,采用多尺度特征融合、轻量化设计等技术。研究表明,随着模型规模扩大(如图中Jumbo ViT所示),ViT系列在准确率上呈现显著提升,逐渐成为替代CNN的通用视觉主干网络。
2025-08-25 22:09:31
1148
原创 SeeMoE:从零开始实现一个MoE视觉语言模型
本文介绍了使用PyTorch从零实现SeeMoE混合专家视觉语言模型的方法。该模型包含三个核心组件:图像编码器(采用CLIP风格的ViT)、视觉-语言投影模块(MLP实现维度转换)和混合专家解码器(基于nanoGPT架构改进)。关键创新在于将传统Transformer块中的前馈网络替换为稀疏MoE模块,该模块包含多个专家MLP和噪声Top-K门控机制,实现仅激活部分专家的高效计算。通过详细展示路由模块和专家组合的实现代码,阐明了混合专家模型的工作原理。
2025-07-29 16:09:35
1116
原创 【小工具】基于像素分布相似度匹配算法的录屏转长图代码实现-非常高效
本代码实现了一个视频处理工具,主要功能包括:1. 从视频中提取关键帧(每30帧提取一帧)。2. 通过图像拼接技术将提取的帧合并为一张长图。代码的核心逻辑是通过计算帧之间的相似度,找到最佳拼接位置,从而实现无缝拼接。
2025-06-05 20:03:46
453
原创 在Transformers生态中解锁timm模型全能力:推理加速、量化部署与零门槛微调
通过全新的TimmWrapper工具,您可以在熟悉的🤗 Transformers生态中为timm模型实现以下功能:⚡ 闪电般推理速度 | 🛠️ 5行代码完成量化 | 🚀 torch.compile加速支持 | 🎯 零门槛微调timm前置准备:安装最新版和完整代码示例与Notebook:🔗。
2025-04-16 14:24:44
942
原创 SmolVLM新模型技术解读笔记
全球最小视觉语言模型SmolVLM-256M(2.56亿参数)及其高性能兄弟版SmolVLM-500M(5亿参数),通过三大技术革新实现“小模型大能力”:视觉编码重构:采用93M参数SigLIP base编码器,支持更高分辨率(384x384),性能接近400M级编码器,体积缩减77%;数据混合优化:强化文档理解(41%)与图像描述(14%)数据配比,提升OCR、图表推理等任务表现;Token压缩技术:图像编码效率提升125%(4096像素/Token),分隔符Token压缩85%
2025-04-15 19:50:07
1013
原创 【开源代码】基于计算机视觉的图像水印检测和去除系统-仅依赖opencv进行水印/LOGO检测-消除用图像处理或者深度学习模型
这个系统展示了如何将传统计算机视觉技术与现代深度学习方法相结合,创造出一个实用的图像处理工具。它不仅能够准确识别和去除水印,还能保持图像的自然性和连续性。该系统的模块化设计也使得它易于维护和扩展。
2024-12-06 17:37:11
2567
原创 【开源代码】DeepGIN图像修复\图像水印消除-基于pytorch框架和CNN模型。
所提议的模型描述了一个复杂的图像修复架构,特别是利用深度生成修复网络(Deep Generative Inpainting Network,简称 DeepGIN)。(1)生成器G1(粗略生成器):该生成器在粗略重建阶段工作, 主要功能是对缺失区域进行粗略估计。G2(精细生成器):该生成器在精细化阶段工作,接收 G1 的输出,并通过添加更精细的细节和纹理来增强图像,最终生成完整的图像。(2)判别器D1 和 D2:这两个判别器是条件多尺度判别器区域的一部分。它们仅在训练阶段使用,以促进生成对抗训练。
2024-12-06 16:58:27
918
原创 【开源代码】图像水印移除-依赖python-tensorflow
示例图像:https://user-images.githubusercontent.com/51057490/140277713-c7d6e2b9-db62-4793-823a-25ed0c4e2771.png。链接:https://pan.baidu.com/s/131E1PMTURjyxG5qR3EASBQ。需要提前有对应的MASK图像,要么自己PS做,要么用技术生成mask,待探索。(试了anaconda的powershell窗口不行,报git找不到的错误)放入源码目录model下。
2024-12-01 19:51:51
715
原创 【开源代码】MinerU-PDF解析工具部署-CPU/GPU加速推理-可转Markdown格式
【代码】【开源代码】MinerU-PDF解析工具部署-CPU/GPU加速推理-可转Markdown格式。
2024-11-20 19:35:23
1765
1
原创 基于百川大语言模型的RSS新闻过滤应用【云服务器+公网网页,随时随地看自己DIY订阅的新闻内容】
目前从公众号、新闻媒体上获得的新闻信息,都是经过算法过滤推荐的,很多时候会感到内容的重复性和低质量,因为他们也要考虑到自己的利益,并非完全考虑用户想要的、对用户有价值的信息。这时,如果要获取自己认为重要的信息,定制化开发自己的筛选算法更好。
2024-05-13 20:22:43
1195
原创 【量化分析】Demo版:获取stock市场往日数据并预测未来两周走势
【代码】【量化分析】Demo版:获取stock市场往日数据并预测未来两周走势。
2020-09-26 16:01:34
575
1
原创 【资料整理】基于RGB摄像头的激光鼠控原型系统
摄像头捕获激光笔照射在屏幕上的位置,算法提取屏幕显示区域,计算激光位置为屏幕的坐标位置,调用系统接口,控制鼠标移动。RGB摄像头,红色激光笔/激光灯。
2020-04-06 16:03:51
413
原创 三维人脸识别演示系统
目前,人脸识别技术在日常生活中得到了广泛应用,该技术具有非强制性、非接触性和并发性等优势,用户体验非常友好。其中,三维人脸识别技术对于人脸的光照和姿态变化更为鲁棒,并且安全系数较高,不过高精度传感器的成本和体积限制了其广泛应用的可能。而随着消费级深度传感器的出现,使得三维人脸识别技术的广泛应用成为可能。在三维人脸识别的整个流程中,主要会涉及到采集设备、数据集和识别方法。高精度的采集设备体积大、价格高,低精度的采集设备体积小、价格低,在应用上更具有优势,但在数据质量上表现较差。
2020-03-08 11:49:41
1765
8
原创 【Tensorflow 1.X】不同接口下实现MNIST手写数字识别
【代码】【Tensorflow 1.X】不同接口下实现MNIST手写数字识别。
2020-02-17 19:59:16
439
1
原创 【MXNet C++】人脸检测与口罩识别(提供c++源码、mxnet模型文件、win演示程序安装包)
一个用以检测戴口罩人脸的工程,基于MXNet、OpenCV开源框架,使用C++语言实现。见文章末尾github仓库。口罩佩戴与否识别-演示视频。见文章末尾百度云盘地址。
2020-02-12 14:55:35
4748
17
原创 【Matlab】Tricks/功能代码记录
绘图时隐藏坐标轴:axis off;调整图像视角:view(0,90);保存figure图像:saveas(gcf,'f1.png');不定时更新。。。
2020-02-11 16:34:45
220
原创 【3DFR Python】convertDepth2Normal:从深度图计算法向图
【代码】【3DFR Python】convertDepth2Normal:从深度图计算法向图。
2019-12-22 00:01:47
6126
13
原创 细数提高模型性能的n种方法
对于多分类问题,最常用的方法是softmax,其改进版本L-softmax(添加乘性margin),A-softmax(归一化权值,margin),可以比较好的拉大类间的距离。对于细粒度分类问题,facenet提出的triplet loss是一个广为使用的方法,可以约束正负样本对之间的距离间隔,十分适用于开集验证问题。使用任意两个类别的数据单样本,进行线性差值,得到新的数据和新的标签。当前流行的有BN、LN、IN、GN方法,根据自身任务的类型,例如分类、检测、分割、生成任务,挑选合适的功能层。
2019-08-22 17:00:27
2044
原创 【Paper & Code】(CVPR2019)Octave Convolution
亮点分离图像数据中的高频和低频信息,降低低频信息的分辨率,保持高频信息的分辨率,减少了整体运算量。论文介绍代码MXNet Symbol接口下的实现:OctConv...
2019-05-19 14:16:58
533
2
原创 【MXNet Gluon】模型训练使用多块显卡加速(multi-gpu)
【代码】【MXNet Gluon】模型训练使用多块显卡加速(multi-gpu)
2019-01-07 15:58:20
3451
2
原创 【OpenCV 4.0 C++】 Kinect Fusion 使用
文章末尾见 github代码仓库。参考这篇博客,特别的要,这样才能使用kinect fusion算法。: 代码使用到的数据集。当使用自己的数据集时,应设置自己的cv::kinfu::params ,这涉及到frame_size等重要参数。默认参数如下。下面的代码是精简过的,去掉了摄像头的相关部分,毕竟一般也用不到。int。
2018-12-16 21:38:54
6366
16
原创 【MXNet Symbol】手动实现数据迭代器之读取图像对
代码此代码用以读取图像对,可以用于图像分割、GAN等要求数据与标签都是图像的任务中。也可以用于多模态图像的应用。需要注意的是:不同类型数据对的文件名要一直,数据也要一致,否则会出现数据不匹配的错误,导致错误的实验结果。# -*- coding:utf-8 -*-import osimport cv2import numpy as npimport randomdef getImgL...
2018-12-10 00:40:00
368
原创 【MXNet TX2】成功在TX2上编译MXNet源码,并使用GPU计算(踩坑与填坑)
但是,当你尝试执行gpu计算任务时,会提示 no kernel image **之类的错误。如果你是已经make完,遇到这个问题(既然你与本文有缘,相信肯定是的啦~~)而这是很重要的一步,因为它应该符合TX2的计算能力才可以。最终,可以开始TX2上MXNet的开发之旅啦~~这是因为在官网配置教程下,没有涉及到设置。
2018-08-03 23:04:43
2768
1
原创 【MXNet Gluon】自己动手实现fit函数,实现断点保存
用过caffe的炼丹师应该都知道,在用caffe训练模型时,可以通过命令行窗口提前终止训练过程,caffe会自动保存当前状态的参数,以供继续训练。但是,对于MXNet,无论你使用何种接口,都不存在这种机制。
2018-07-29 22:15:51
1053
1
原创 【MXNet Gluon】使用预训练好的模型fine-tune
finetune关键代码prenet=ResNet(466)net=ResNet(3400)ctx = [mx.gpu(i) for i in range(3)]if finetune ==1: prenet.load_params('params/net-%d.params' % (start_iter),ctx) #features为需要保留的模型参数,outpu...
2018-05-07 20:22:19
2915
1
原创 【OpenCV】OpenCV3.4+OpenCV-Contrib 编译在windows10_x64+vs2015环境下
如图,选择源码和编译目录,选择Configure开始。【中间会下载东西,我有放梯子的~~要是不开不知道有没有影响】然后,选择opencv_contrib中的module文件目录,再一次configure。一切顺利,又得到的configuring done.然后Generate.右键Install,选择生成,开始编译。然后就是配置属性表了,easy~
2018-01-29 18:03:52
7839
10
原创 【MXNet Gluon】基于斯坦福狗的品种分类数据集训练SSD检测模型
本文所使用的数据和模型可在CSDN资源页下载。本文主要对原来的代码进行了整理,方便调用和训练。主要参考了Gluon的SSD例子。
2017-12-28 19:26:13
3640
2
原创 【MXNet Symbol】 多指标评价模型性能
MXNet 分类模型训练之采用多指标评价模型能力(accuracy,cross-entropy,top_k_accuracy)
2017-09-06 16:55:29
1701
原创 【MXNet Gluon】目标检测数据集制作+SSD 模型训练
但是,在实际操作过程中我发现,A需要设置为4才好用。具体,可以参考 数据集里的文件。通过修改data_shape 和数据集的路径,并可以开始你的模型训练。请下载上述数据集,内部包含图片+工具代码+lst文件例子。革命仍未成功,模型仍需训练。
2017-08-30 23:47:37
10075
15
上海浦东新区的4553个小区列表csv文件,包含经纬度、名称、均价、邮编、年代
2025-07-27
MXNet gluon SSD code
2017-12-28
FCN数据集 图片和标签
2016-12-29
MXNet C++ API (CUDA 8.0, win x64 , without cudnn)
2018-12-18
人脸识别类
2015-08-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅