深度学习
文章平均质量分 53
AICVer
专注计算机视觉,文本检测识别,目标检测等
展开
-
减少GPU显存的策略
训练时减少batchsize图片尺寸缩小推理时cpu加载模型 pipe.enable_sequential_cpu_offload()减小精度 torch.float32 --> torch.float16其它原创 2024-06-09 14:15:58 · 210 阅读 · 0 评论 -
AI 换装之OOTDiffusion
项目地址:https://github.com/levihsu/OOTDiffusion试用地址:https://ootd.ibot.cn/原创 2024-06-02 15:39:49 · 776 阅读 · 0 评论 -
超分论文走读
codeFormer原始动机高度不确定性,模糊到高清,存在一对多的映射纹理细节丢失人脸身份信息丢失模型实现训练VQGAN 从而得到HQ码本空间作为本文的离散人脸先验。为了降低LQ-HQ映射之间的不确定性,我们设计尽量小的码本空间和尽量短的Code序列作为人脸的离散表达。因此,我们采用了大的压缩比 (32倍),即将原来的人脸图片压缩为的离散Code序列。该设计使得码本中Code具有更丰富的上下文信息,有助于提升网络表达能力以及鲁棒性。嵌入Transformer模块,对特征全局建模,以达成原创 2024-05-29 11:41:30 · 209 阅读 · 0 评论 -
pytorch与cuda版本对应关系汇总
pytorch与cuda版本关系|cuda版本| 支持pytorch版本 ||–|–|| cuda10.2 | 1.5 ~ 1.12 |原创 2023-12-27 16:56:19 · 37614 阅读 · 8 评论 -
NerfingMVS实践步骤记录
NERF实践原创 2023-11-07 14:36:11 · 201 阅读 · 0 评论 -
人脸检测及追踪回顾
快速人脸检测以及追踪原创 2023-10-11 20:34:22 · 181 阅读 · 0 评论 -
点云相关整理
点云相关整理原创 2022-05-31 23:34:20 · 100 阅读 · 0 评论 -
MindSporeLite 实践
Android demo测试官网指南注意事项:从android studio下载指定的NDK,Cmake,Gradle等依赖。若网络OK的话,点击Android SDK里的show package details会显示各个版本信息,按需下载。demo需要MindsporeLite库文件(需手动编译才能支持NPU)以及模型文件,可提前根据链接下载好放入指定目录。手动编译MindsporeLite库以支持NPU官网指南下载DDK (注意芯片与版本映射关系)编译构建...原创 2021-12-30 23:10:45 · 1310 阅读 · 2 评论 -
循环神经网络RNN及其变体
RNN经典的RNN网络如图所示,输入和输出是相等的。Sequence to Sequence在Seq2Seq结构中,编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由解码器Decoder解码。在解码器Decoder解码的过程中,不断地将前一个时刻 [公式] 的输出作为后一个时刻 [公式] 的输入,循环解码,直到输出停止符为止。Attention在Seq2Seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由Decod原创 2021-10-21 23:54:14 · 297 阅读 · 0 评论 -
Center Loss
算法Center loss 能够直接对样本特征之间的距离进行约束。Center loss 添加的约束是,特征与同类别的平均特征的距离要足够小,这要求同类特征要接近它们的中心点,公式如下表示:其中xi 表示第i个样本的提取特征,cyi表示样本i所对应的类别的所有样本特征的平均特征,或者说同类别样本特征的中心点,m表示样本个数。如何计算cyi是一个难点,通过计算同一类别所有样本的特征,然后求平均值,这种方法是不切实际的,因为我们的训练样本非常庞大。作者另辟蹊径,使用mini-batch中的每个类原创 2021-09-11 13:33:10 · 220 阅读 · 0 评论 -
轻量级人脸检测
1.超轻人脸检测https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB2.移动端部署https://github.com/jackweiwang/Android-FaceDetection-UltraNet-MNN原创 2020-09-11 00:07:34 · 280 阅读 · 0 评论 -
ubuntu安装cudnn
1. 下载cudnn10.1:官网:https://developer.nvidia.com/rdp/cudnn-archive可以下载两种安装文件:我使用的是第一种安装方法.①按上图下载的是cudnn-*tgz的压缩包时解压下载的文件,可以看到cuda文件夹,在当前目录打开终端,执行如下命令:sudo cp cuda/include/cudnn.h /usr/local/cuda/include/sudo cp cuda/lib64/libcudnn* /usr/loca原创 2020-07-25 23:44:34 · 970 阅读 · 0 评论 -
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译
摘要 场景文本图像包含两个水平的内容,视觉纹理和语义信息。虽然之前场景文本识别方法已经取得了很大的进展,然而研究很少在注意力机制来来挖掘语义信息,只有RNN结构不明确的探索了语义信息。我们观察到RNN结构有一些明显的缺陷...原创 2020-07-21 13:14:45 · 1171 阅读 · 0 评论 -
keras分类代码2(利用已有模型进行训练)
1.训练代码import osimport sysimport globimport argparseimport matplotlib.pyplot as pltfrom keras import __version__from keras.applications.inception_v3 import InceptionV3, preprocess_input# from keras.applications.inception_v3_matt import InceptionV原创 2020-06-18 23:39:10 · 746 阅读 · 0 评论 -
keras 特征图可视化
import argparseimport matplotlib.pyplot as pltimport numpy as npfrom PIL import Image, ImageDrawfrom keras.preprocessing import imagefrom keras.applications.vgg16 import preprocess_inputfrom m...原创 2019-03-05 15:31:23 · 4381 阅读 · 0 评论 -
目标检测解决多尺度问题
相关链接http://bbs.cvmart.net/topics/264/scale?from=groupmessage1.针对小目标Perceptual Generative Adversarial Networks for Small Object Detection CVPR2017文章2.多尺度问题UC San DiegoSVCL实验室和IBM研究院的MSCNN:A ...原创 2019-01-29 20:30:15 · 1948 阅读 · 0 评论 -
Arbitrary-Oriented Scene Text Detection via Rotation Proposals 论文要点记录
在MSRA-TD500数据集提升结果如下图:提升策略:a.文本区域上下文b.扩增训练数据集c.边界填充(保持图像原有比例)d.尺寸抖动e.后处理原创 2019-03-03 11:27:09 · 373 阅读 · 0 评论 -
keras版本SSD
源代码地址:https://github.com/pierluigiferrari/ssd_keras1.数据输入存储object_detection_2d_data_generator.py修改数据存储格式 整形改成浮点型(但意味着存储空间扩大2倍):hdf5_labels = hdf5_dataset.create_dataset(name='labels', ...原创 2019-01-09 15:18:37 · 1967 阅读 · 1 评论 -
论文阅读笔记之Pyramid Attention Network for Semantic Segmentation
论文地址:https://arxiv.org/abs/1805.10180v1摘要:本文利用全局上下文信息在语义分割中的影响提出了一个金字塔注意力网络(PAN)。与现有的工作不同,我们结合注意机制和空间金字塔对像素级别的标签提取精确稠密特征,而不是复杂的空洞卷积(dilated convolution )和人工设计的解码器网络。具体地,我们引入了特征金字塔注意力模块,在高层特征图输出上执行...原创 2019-01-10 13:01:11 · 3900 阅读 · 0 评论 -
pytorh resnet网络代码分析
1.基本块class Bottleneck(nn.Module): expansion = 4 def __init__(self, inplanes, planes, stride=1, downsample=None): super(Bottleneck, self).__init__() self.conv1 = nn.Conv2d(i...原创 2019-08-21 23:41:44 · 318 阅读 · 0 评论 -
2019 人工智能领域AI相关比赛信息
1.ICDAR2019ICDAR是专注于自然场景下图片文本检测与识别的一项比赛。http://rrc.cvc.uab.es/2.天池大数据竞赛https://tianchi.aliyun.com/competition/entrance/231685/introduction?spm=5176.12281925.0.0.cbdc7137ck6tzc3.首届中国人工智能·多媒体信...原创 2019-03-27 20:44:09 · 1948 阅读 · 0 评论 -
Oriented Response Networks 论文解读
3.网络整体架构ORN是使用主动旋转滤波器的深度卷积神经网络。ARF是一种在卷积过程中进行旋转的滤波器,以生成具有多方向通道的特征映射图。因此ARF是一个虚拟的滤波器组,只有一个卷积核实例化进行学习相关参数。有了ARF,ORN具有更少的网络参数而且具有层次分明的方向信息编码。在采用ARFs的过程中,主要解决三个问题。1.使用两阶段技术手段基于傅里叶变换旋转ARF。2.使用ARFs进行卷积得...原创 2019-04-24 15:40:37 · 2980 阅读 · 0 评论 -
论文 Shape Robust Text Detection with Progressive Scale Expansion Network 翻译
摘要:卷积神经网络的发展,使得自然场景下文本检测得到了快速发展。然而,仍然存在两个重要的挑战阻碍了算法在工业界的应用。一方面,大多数先进的的算法需要四边形边界框,这对检测任意文本形状的边界框来说是不准确的。另一方面,两个彼此接近的文本实例可能导致错误的检测。语义分割算法可以缓解第一个问题但不能解决第二个问题。为了解决这两个问题,本文我们提出PSENET,它可以精确的检测任意形状的文本框。更具体的来...原创 2019-05-09 10:52:35 · 337 阅读 · 0 评论 -
Caffe MobileSSD 使用过程记录
github地址:https://github.com/chuanqi305/MobileNet-SSD1.下载SSD并编译运行SSD caffe地址:https://github.com/weiliu89/caffe/tree/ssd要点一:下载的VOC数据要放在HOME/username/data/目录下 而不是caffe-ssd的data目录下要点二:数据转换,执行命令直接 ...原创 2019-06-09 16:56:13 · 916 阅读 · 1 评论 -
论文翻译 Spatial Fusion GAN for Image Synthesis
摘要 GANs已经在图像合成显现了巨大的潜力,大多数工作旨在解决外表空间或几何空间,很少能都涉及。这篇论文提出了一个创新的SF-GAN结合了一个外表生成器和几何生成器来实现同时生成几何和外表空间。几何生成器学习背景图像的上下文内容将前景对象转换放置到背景图像中。...原创 2019-07-27 00:15:16 · 1286 阅读 · 0 评论 -
keras 版本PSEnet训练过程记录
1.由分步执行改成一个文件训练文件import keras.backend.tensorflow_backend as KTFimport tensorflow as tfconfig = tf.ConfigProto()config.gpu_options.allow_growth=Truesession = tf.Session(config=config)KTF.set_...原创 2019-08-09 20:09:47 · 1267 阅读 · 2 评论 -
pytorch安装对应版本torchvision
1.代码要求版本1.0,pytorch1.1会报错ImportError: /usr/local/lib/python3.5/dist-packages/torchvision/_C.cpython-35m-x86_64-linux-gnu.so: undefined symbol: _ZN2at7getTypeERKNS_6TensorE2. 安装torch1.0 要对应安装torch...原创 2019-08-17 15:37:21 · 53802 阅读 · 3 评论 -
多任务学习
Deep Learning 回顾多任务学习 https://www.52ml.net/20775.html?utm_source=tuicool&utm_medium=referral深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)https://www.cnblogs.com/shuzir...原创 2018-03-25 21:20:26 · 493 阅读 · 0 评论 -
论文阅读笔记之Deformable ConvNets v2
摘要:可变形卷积网络的优越性能产生于它适应物体几何变化的能力。通过对自适应行为的实验,我们观察到虽然对其神经特征的空间支持比常规ConvNets更接近于对象结构,但是这种支持可能远远超出感兴趣区域,导致特征受不相关图像内容影响。为了解决这个问题,我们提出了可变形ConvNets的一种重构,通过增强建模能力和加强训练,提高了其聚焦于图像相关区域的能力。在卷积网络中,通过更全面的变形卷积集成,并通过引...原创 2018-12-18 14:56:26 · 610 阅读 · 0 评论 -
论文阅读笔记之Deformable Convolutional Networks
论文地址:https://arxiv.org/abs/1703.06211摘要:卷积神经网络的固定几何结构限制了模型对物体形变的建模能力,在本工作中,我们引入了两个新的模块来增强CNNs的形变建模能力,即可变形卷积和可变形RoI池。通过额外的偏移量参数增强空间位置采样能力,并从目标任务中学习偏移量,不需要附加偏移量监督。新模块可以很容易的在现有网络中进行替换,通过标准反向传播很容易进行端到端的...原创 2018-12-17 18:32:17 · 582 阅读 · 0 评论 -
Keras与Tensorflow混用 报错Keras AttributeError: 'Tensor' object has no attribute '_keras_history'
第一种策略:将tensorflow tensor转keras tensor1.索引操作转换#转换前x = self.x[:, :, :, :]#转换后x=Lambda(lambda x: x[:, :, :, :])(self.x)2.tf操作以及K操作转换x=Lambda(lambda x: K.round(x))(x)3.带有非tensor参数的函数转换of...原创 2018-12-21 19:41:21 · 5121 阅读 · 0 评论 -
Tensorflow Android demo 源码分析
1.TensorFlowMultiBoxDetector中部分代码如下Bitmap转成矩阵数据@Overridepublic List<Recognition> recognizeImage(final Bitmap bitmap) { // Log this method so that it can be analyzed with systrace. Trace.beg...原创 2018-04-04 21:07:31 · 766 阅读 · 0 评论 -
深度学习训练时相关问题
1.Nan错误InvalidArgumentError (see above for traceback): Nan in summary histogram for: fc6/weights_0 [[Node: fc6/weights_0 = HistogramSummary[T=DT_FLOAT, _device="/job:localhost/replica:0/task:0/devic...原创 2018-04-11 15:13:28 · 933 阅读 · 0 评论 -
文本检测识别数据集
1.中文数据集CTW data(Chinese Text in the Wild)清华大学与腾讯共同推出了中文自然文本数据集(Chinese Text in the Wild,CTW)——一个超大的街景图片中文文本数据集,为训练先进的深度学习模型奠定了基础。目前,该数据集包含 32,285 张图像和 1,018,402 个中文字符,规模远超此前的同类数据集。研究人员表示,未来还将在此数据集...原创 2018-04-03 15:51:56 · 24848 阅读 · 2 评论 -
Windows 下tensorflow_gpu安装
1.安装vs20152.安装cuda9.0和cudnn7 对应tensorflow1.7 cuda8.0和cudnn6 对应tensorflow1.3(以上两个经本人测试没问题)3.安装anaconda4.pip --default-timeout=100 install tensorflow-gpu...原创 2018-04-01 15:10:15 · 181 阅读 · 0 评论 -
论文学习解读
1.Group Normalization 替代BN批规一化的论文地址:https://arxiv.org/abs/1803.08494批量归一化(Batch Normalization,以下简称 BN)是深度学习发展中的一项里程碑式技术,可让各种网络并行训练。但是,批量维度进行归一化会带来一些问题——批量统计估算不准确导致批量变小时,BN 的误差会迅速增加。在训练大型网络和将特征转移到计算机视...原创 2018-03-25 21:32:16 · 339 阅读 · 0 评论 -
windows下Android studio编译Tensorflow_Android_Demo
编译Tensorflow_Android_Demo1.修改build和gradle文件2.修改build.gradle , 把nativeBuildSystem的值改为none3.下载模型文件并放到gradleBuild/downloads下面,地址在download-models.gradle文件中 MODEL_URL+model4.在工程目录下新建libs文件夹,添加libtensorflow...原创 2018-03-30 01:53:13 · 980 阅读 · 0 评论 -
深度学习调试参数总结
1.卷积核的设置weights = tf.get_variable('w', shape=[3, 3, filter1, filter2], dtype=tf.float32, initializ...原创 2018-03-17 02:54:48 · 471 阅读 · 1 评论 -
阿里云pai---深度学习遇到问题解决方案
1.打包上传文件到oss后,找不到指定文件夹下的相关模块(实际是存在的):Traceback (most recent call last): File "Faster-RCNN/train.py", line 8, in <module> import lib.datasets.roidb as rdl_roidbImportError: No module named...原创 2018-03-08 15:03:23 · 980 阅读 · 1 评论 -
细粒度图像分类---Fine-grained Image Classification
1.进展综述https://zhuanlan.zhihu.com/p/247383192.论文原文:Object-Part Attention Driven Discriminative Localization for Fine-grained Image Classification(2017.4.6)作者:Yuxin Peng, Xiangteng He, and Junjie Zhao(清...原创 2018-03-06 22:09:37 · 6671 阅读 · 0 评论