deep learning
文章平均质量分 79
haima1998
这个作者很懒,什么都没留下…
展开
-
图解NCHW与NHWC数据格式
图解NCHW与NHWC数据格式_田海立@CSDN-CSDN博客_nchw流行的深度学习框架中有不同的数据格式,典型的有NCHW和NHWC格式。本文从逻辑表达和物理存储角度用图的方式来理解这两种数据格式,最后以RGB图像为例来加深NHWC和NCHW数据存储格式的理解。一、基本概念深度学习框架中,数据一般是4D,用NCHW或NHWC表达,其中:N - BatchC - ChannelH - HeightW - Width二、逻辑表达假定N = 2,C = 16,H = 5,.转载 2022-02-21 14:58:02 · 1662 阅读 · 0 评论 -
pytorch计算FLOPs
转自:pytorch计算FLOPs - 简书1. 引言其实模型的参数量好算,但浮点运算数并不好确定,我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算,它的参数量比较小,但是运算量非常大,它是一种计算密集型的操作。反观全连接结构,它的参数量非常多,但运算量并没有显得那么大。 此外,机器学习还有很多结构没有参数但存在计算,例如最大池化和Dropout等。因此,PyTorch-OpCounter 这种能直接统计 FLOPs 的工具还是非常有吸引力的。 PyTorch-OpCounter G转载 2021-12-21 14:28:36 · 4741 阅读 · 1 评论 -
Pytorch中计算自己模型的FLOPs | thop.profile() 方法 | yolov5s 网络模型参数量、计算量统计
转自:Pytorch中计算自己模型的FLOPs | thop.profile() 方法 | yolov5s 网络模型参数量、计算量统计_墨理学AI-CSDN博客Pytorch: 用thop计算pytorch模型的FLOPs - 简书安装thoppip install thop基础用法以查看resnet50的FLOPs为例from torchvision.models import resnet50from thop import profilemodel = r转载 2021-11-16 20:52:38 · 8709 阅读 · 1 评论 -
细粒度图像识别
转自:https://nicehuster.github.io/2019/06/12/fine-grain/一般而言,图像识别分为两种:传统图像识别和细粒度图像识别。前者指的是对一些大的类别比如汽车、动物、植物等大的类别进行分类,这是属于粗粒度的图像识别。而后者则是在某个类别下做进一步分类。比如在狗的类别下区分狗的品种是哈士奇、柯基、萨摩还是阿拉斯加等等,这是属于细粒度图像识别。数据集在细粒度图像识别领域,经典的基准数据集包括:鸟类数据集CUB200-2011,11788张图像,200个细粒转载 2021-10-29 15:26:57 · 7464 阅读 · 0 评论 -
本地PC连接远程服务器上的Tensorboard
转自:本地PC连接远程服务器上的Tensorboard - 知乎tensorboard --logdir logs --bind_all在远程服务器上执行如下命令启动tensorboard的服务之后:tensorboard --logdir logs无法在本地PC上打开tensorboard的网页:http://server_ip:6006执行tensorboard --logdir logs命令有如下提示:liguanlin@opt48:/mnt/liguanlin/cod转载 2021-10-25 19:11:18 · 659 阅读 · 0 评论 -
损失函数和正则化
参考:https://www.cnblogs.com/LXP-Never/p/10918704.htmlhttps://blog.csdn.net/Heitao5200/article/details/83030465https://zhuanlan.zhihu.com/p/35893078https://zhuanlan.zhihu.com/p/36794078作为损失函数L1范数损失函数 L1范数损失函数,也被称之为平均绝对值误差(MAE)。总的来说,它把目标值y(n)y(n.转载 2021-08-21 15:43:04 · 1860 阅读 · 0 评论 -
笔记︱几款多模态向量检索引擎:Faiss 、milvus、Proxima、vearch、Jina等
转自:https://zhuanlan.zhihu.com/p/364923722引用文章[7]的开篇,来表示什么是: 向量化搜索人工智能算法可以对物理世界的人/物/场景所产生各种非结构化数据(如语音、图片、视频,语言文字、行为等)进行抽象,变成多维的向量。这些向量如同数学空间中的坐标,标识着各个实体和实体关系。我们一般将非结构化数据变成向量的过程称为 Embedding,而非结构化检索则是对这些生成的向量进行检索,从而找到相应实体的过程。非结构化检索本质是向量检索技术,其主要的应用领转载 2021-08-18 15:38:25 · 7618 阅读 · 0 评论 -
一文看尽深度学习中的15种损失函数
转自:https://zhuanlan.zhihu.com/p/377799012在机器学习中,损失函数是代价函数的一部分,而代价函数则是目标函数的一种类型[1]。Loss function,即损失函数:用于定义单个训练样本与真实值之间的误差;Cost function,即代价函数:用于定义单个批次/整个训练集样本与真实值之间的误差;Objective function,即目标函数:泛指任意可以被优化的函数。损失函数是用于衡量模型所作出的预测离真实值(Ground Truth)之间的偏离转载 2021-08-15 17:36:56 · 1718 阅读 · 0 评论 -
更逼真的抠图技术!Realistic Lighting on Different Backgrounds
更逼真的抠图技术https://augmentedperception.github.io/total_relighting/https://jishuin.proginn.com/p/763bfbd597f5实时分割算法(人像分割)https://github.com/lizhengwei1992/Semantic_Human_Matting昨天分享了一个给人脸抠图,重新打光的视频,让最终的效果更加逼真。具体链接:给背景替换加“亿”点真实感,保留真实感的光照效果 | siggra转载 2021-08-15 16:08:49 · 483 阅读 · 0 评论 -
查找论文对应开源代码的神器(Papers with Code)
转自:https://blog.csdn.net/lzw17750614592/article/details/86443142最近发现一个神奇的网站,这个网站在看论文找代码的时候提供很大的便利,分享给大家。Reddit用户rstoj做了一个网站,将ArXiv上的最新机器学习论文与GitHub上的代码(TensorFlow/PyTorch/MXNet /等)对应起来。你可以按标题关键词查询,也可以按流行程度、GitHub星星数排列“热门研究”。这个网站能让你跟上ML社区流行的最新动态。网站地址:转载 2021-08-09 10:44:52 · 961 阅读 · 0 评论 -
图像超分辨率算法:CVPR2020
转自:https://www.cnblogs.com/wujianming-110117/p/13119017.html图像超分辨率算法:CVPR2020Unpaired Image Super-Resolution using Pseudo-Supervision论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Maeda_Unpaired_Image_Super-Resolution_Using_Pseudo-Super转载 2021-07-17 22:37:51 · 881 阅读 · 0 评论 -
ASRT语音识别项目
转自:https://www.zhihu.com/question/23473262/answer/812989806作者:zahet链接:https://www.zhihu.com/question/23473262/answer/812989806来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。开源的语音识别首先推荐的当然就是ASRT语音识别项目这是一个基于中文的语音识别开源项目,GitHub地址为:nl8590687/ASRT_SpeechRec.转载 2021-07-17 21:40:25 · 1774 阅读 · 0 评论 -
3D人体重建方法漫谈
转自:https://blog.csdn.net/Asimov_Liu/article/details/96442990转载 2021-06-06 16:47:38 · 1707 阅读 · 0 评论 -
RNN/LSTM循环神经网络讲解
转自:https://zhuanlan.zhihu.com/p/123211148转载 2021-05-30 16:16:45 · 317 阅读 · 0 评论 -
FPN+PAN结构学习
转自:https://blog.csdn.net/qq_35054151/article/details/111461066转载 2021-05-30 10:43:47 · 2717 阅读 · 0 评论 -
数据增强:Mixup,Cutout,CutMix | Mosaic
转自:https://www.jianshu.com/p/639f9ecc1328转载 2021-05-30 10:00:15 · 1110 阅读 · 0 评论 -
理解 Deformable Convolutional Networks
转自:https://zhuanlan.zhihu.com/p/52476083转载 2021-05-30 09:49:13 · 201 阅读 · 0 评论 -
小样本分割综述
转自:https://zhuanlan.zhihu.com/p/142899098声明一下,这篇文章是参考了其他的博客和论文写的,属于半原创1.介绍深度卷积神经网络在图像分类、目标检测、语义分割等许多视觉理解任务上都取得了重大突破。一个关键的原因是大规模数据集的可用性,比如ImageNet,这些数据集支持对深度模型的培训。然而,数据标记是昂贵的,特别是对于密集的预测任务,如语义分割和实例分割。此外,在对模型进行训练之后,很难将模型应用于新类的预测。与机器学习算法不同的是,人类只看到几个例子就能很转载 2021-05-25 23:01:03 · 1302 阅读 · 0 评论 -
推理前处理neon加速实现neon_mean_scale
转自:https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.1/deploy/android_demo/app/src/main/cpp/preprocess.cpp// fill tensor with mean and scale and trans layout: nhwc -> nchw, neon speed upvoid neon_mean_scale(const float *din, float *dout, int s原创 2021-05-16 15:02:05 · 622 阅读 · 0 评论 -
深度学习系统为什么容易受到对抗样本的欺骗?
转自:https://zhuanlan.zhihu.com/p/89665397本文作者:kurffzhou,腾讯 TEG 安全工程师最近,Nature发表了一篇关于深度学习系统被欺骗的新闻文章,该文指出了对抗样本存在的广泛性和深度学习的脆弱性,以及几种可能的解决方法。安全平台部基础研究组自2017年来在对抗样本的生成及防守方法进行了深入研究,在这里团队通过在攻击方面的经验,分享我们对于防守对抗样本的一些思考,欢迎共同讨论。深度学习在现实生活中的应用越来越广,然而越来越多的例子表明,深度学习系统转载 2021-05-03 09:46:14 · 685 阅读 · 0 评论 -
OPEN AI LAB开源的Tengine 推理引擎
转自:https://blog.csdn.net/weixin_43476455/article/details/85764113https://www.zhihu.com/question/264880727http://www.openailab.com/int/ability/list2.html现阶段,边缘人工智能的主要挑战有成本、功耗、AI计算能力,以及软件生态构建等问题。芯片公司被迫花大量精力做上层开发环境和平台,应用/算法公司被迫做大量底层适配优化成为全栈AI公司。如何创造性.转载 2021-03-31 15:51:12 · 906 阅读 · 0 评论 -
opencv dnn 使用深度学习前向推理
转自:https://zhuanlan.zhihu.com/p/28323601https://blog.csdn.net/qq_30815237/article/details/87914775刚刚出炉的 OpenCV 3.3 版本增加了符合历史进程的新模块 dnn,也就是深度神经网络。dnn 模块其实很早就存在于 opencv_contrib 项目中,这次提到了主项目里,算是转正了。小张琢磨了下,这个 dnn 模块的卖点有这么几个:1)零依赖只依赖 opencv,如果你被 caffe转载 2021-03-31 14:11:37 · 528 阅读 · 0 评论 -
多目标跟踪:SORT和Deep SORT
转自:https://blog.csdn.net/zhuiqiuk/article/details/88653113https://zhuanlan.zhihu.com/p/59148865多目标跟踪,即Multiple Object Tracking(MOT),主要任务中是给定一个图像序列,找到图像序列中运动的物体,并将不同帧的运动物体进行识别,也就是给定一个确定准确的id,当然这些物体可以是任意的,如行人、车辆、各种动物等等,而最多的研究是行人跟踪,由于人是一个非刚体的目标,且实际应用中行人检测转载 2021-03-23 10:12:35 · 692 阅读 · 0 评论 -
yolov5 网络结构和后处理结构
转自:https://www.163.com/dy/article/G07PMVPO0511ABV6.html作者:gloomyfish 【新智元导读】本文从原始的三个输出层解析实现了boxes, classes, nms等关键C++代码输出,实现了纯OpenVINO+OpenCV版本的YOLOv5s模型推理的代码演示。下面是详细的系统环境与各个部分解释,以及代码实现与演示图像。 系统版本信息与依赖 Window 10 64bit Pytorch1.7+CUDA10.0 Pytho转载 2021-03-15 16:48:06 · 9438 阅读 · 1 评论 -
MNN / TNN /TFlite GPU 对比
转自:https://www.zhihu.com/question/400143354作者:阿里巴巴淘系技术链接:https://www.zhihu.com/question/400143354/answer/1310377675来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。端侧AI在这两三年里,可谓高速发展,新应用、新算法、新硬件推陈出新,也不断有新推理引擎涌现。但对引擎的评价方式定格在了三年前,比较的总是ARMv7/ARM64下MobileNet、..转载 2021-02-24 10:07:20 · 3300 阅读 · 0 评论 -
tflite GPU推理
转自:https://www.tensorflow.org/lite/performance/gpu_advancedTensorFlow Lite 在GPU环境下TensorFlow Lite支持多种硬件加速器。本文档介绍如何在安卓系统(要求OpenGL ES 3.1或更高版本)和iOS(要求iOS 8 或更高版本)的GPU后端(backend)使用TensorFLow Lite delegate APIs。使用GPU加速的优势速度GPUs 设计为具有高吞吐量、可大规模并行化的工.转载 2021-02-24 09:35:41 · 2314 阅读 · 1 评论 -
输入文本就可建模渲染了?!OpenAI祭出120亿参数魔法模型!
转自:https://new.qq.com/omn/20210111/20210111A0CBRD00.html2021刚刚开启,OpenAI又来放大招了!能写小说、哲学语录的GPT-3已经不足为奇?那就来一个多模态『图像版GPT-3』。今天,OpenAI重磅推出了最新语言模型—DALL·E,它是GPT-3的120亿参数版本,可以魔法一般按照自然语言文字描述直接生成对应图片!比如,在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”,它就可以生成这样一张图片:输入“鳄梨形状的扶手转载 2021-01-12 09:43:55 · 279 阅读 · 0 评论 -
Background Matting详解
转自:https://zhuanlan.zhihu.com/p/148265115?from_voters_page=true使用人工智能技术实现类似PhotoShop等工具的抠图功能是一个非常有趣且有科研前景的一个方向。和分割算法只有和两个值相比,抠图得到的边缘更加平滑和自然,且包含透明通道信息。抠图方法可以概括为:。其中是输入图像,表示图像的的前景,表示背景,表示该像素为前景的概率,Matting通常是指由图像内容和用户提供的先验信息来推测,以及。从技...转载 2020-12-05 20:46:11 · 1999 阅读 · 0 评论 -
模型结构可视化神器——Netron(支持tf, caffe, keras,mxnet等多种框架)
转自:https://blog.csdn.net/leviopku/article/details/81980249很多时候,复现人家工程的时候,需要了解人家的网络结构。但不同框架之间可视化网络层方法不一样,这样给研究人员造成了很大的困扰。前段时间,发现了一个可视化模型结构的神奇:Netron目前的Netron支持主流各种框架的模型结构可视化工作,我直接给出gayhub链接:https://github.com/lutzroeder/Netron支持windows,Linux,mac系统在wi转载 2020-12-01 11:25:34 · 303 阅读 · 0 评论 -
Caffe:CPU模式下使用Intel MKL
转自:https://blog.csdn.net/10km/article/details/52724477下载安装Intel MKL打开这里Intel® Math Kernel Library (Intel® MKL),点击”Get This Library for Free”下载一个非商用的免费版本,很简单,只需要提供邮箱,然后按照步骤一步步来就行了,在下载界面上会有显示序列号,务必记下这个序列号。以linux版本为例,我下载的文件为l_mkl_2017.0.098.tgz,解压缩后执行ins转载 2020-10-21 21:02:39 · 306 阅读 · 0 评论 -
超分辨率高分开源代码
超分辨率高分开源代码github 搜索关键字:super resolution代码地址:https://github.com/nagadomi/waifu2xhttps://github.com/alexjc/neural-enhancehttps://github.com/idealo/image-super-resolutionhttps://github.com/david-gpu/srez超分辨率论文和代码汇总https://github.com/YapengTian/原创 2020-10-15 11:54:13 · 974 阅读 · 0 评论 -
人脸检测、对齐、跟踪、识别 论文收集
转自:https://github.com/ChanChiChoi/awesome-Face_Recognition转载 2020-09-27 20:36:09 · 150 阅读 · 0 评论 -
Matting(抠图)--用深度学习自动去除照片背景
转自:https://zhuanlan.zhihu.com/p/38031181https://zhuanlan.zhihu.com/p/151212267现在又有一个 AI 能干 Photoshop 的活了——自动抠图,一键去除照片背景。这款 AI 抠图产品已经成型,叫做 GreenScreen。集智体验了一下,效果还不错。比如,我们让 AI 为象征自由的男人——香蕉君抠个图吧。熟悉的原图:然后我们把香蕉君的照片拖到网站上,让 AI 去除背景,说时迟那时快只听...转载 2020-09-26 21:52:30 · 4276 阅读 · 0 评论 -
PaddleSlim进行网络模型精简
转自:https://blog.csdn.net/qq_21643227/article/details/105345613文章目录一、介绍 二、剪裁 三、量化 四、蒸馏 五、NAS这是百度飞桨关于PaddleSlim的直播介绍的一点整理,方便日后查看。地址:https://aistudio.baidu.com/aistudio/education/lessonvideo/256291一、介绍PaddleSlim是一个模型压缩工具集,产出好用的“小模型”。二、...转载 2020-09-26 21:45:36 · 502 阅读 · 0 评论 -
带你看懂CTC算法
转自:https://zhuanlan.zhihu.com/p/161186907在文本识别模型CRNN中,涉及到了CTC算法的使用,由于算法的原理涉及内容较多,所以特另开一篇文章对其原理进行叙述。自己在学习CTC过程中也是看了诸多资料才大概理解其中的思想,其中最著名的是一篇英文博客,其对CTC算法进行了通俗又详尽地讲解,链接在文末给出。本文的内容也是以其为大纲,同时参考其他优秀的资料,并加上了自己一些的理解,希望能让读者对CTC的原理有一个大致的了解。文章涉及内容较多,难免有疏漏之处,如有错误转载 2020-09-26 11:28:28 · 1091 阅读 · 0 评论 -
Android平台深度学习--NNAPI
转自:http://blog.sina.com.cn/s/blog_602f87700102y62v.html1. Android 8.1 (API-27) NNAPI:人工智能神经网络API(如:TensorFlow)神经网络 API 能够向设备内置机器学习框架,如 TensorFlow Lite —— Google 移动跨平台机器学习框架、Caffe2 等,提供加速运算和推理。TensorFlow Lite 现已对开发者开放,各位可移步 TensorFlow Lite 开源库进行下载和文转载 2020-09-21 20:53:03 · 3862 阅读 · 0 评论 -
HyperLPR中文车牌识别
转自:https://blog.csdn.net/djstavaV/article/details/86883931原文出处:https://xugaoxiang.com/2019/12/16/hyperlpr/软硬件环境Intel® Xeon® CPU E5-1607 v4 @ 3.10GHz GTX 1070 Ti 32G ubuntu 18.04 64bit anaconda with python 3.6 tensorflow-gpu keras opencv 3.4.3.转载 2020-09-13 21:32:21 · 7489 阅读 · 0 评论 -
一文读懂CRNN+CTC文字识别
转自:https://zhuanlan.zhihu.com/p/43534801文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行识别。所以一般来说,从自然场景图片中进行文字识别,需要包括2个步骤:文字检测:解决的问题是哪里有文字,文字的范围有多少 文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。图1 文字识别的步骤文字检测类似于目标检测,即用 box 标识出图像中所有文字位置。转载 2020-09-13 14:33:28 · 1444 阅读 · 0 评论 -
语音识别中的CTC算法的基本原理解释
转自:https://zhuanlan.zhihu.com/p/161186907https://zhuanlan.zhihu.com/p/161186907欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~本文作者:罗冬日目前主流的语音识别都大致分为特征提取,声学模型,语音模型几个部分。目前结合神经网络的端到端的声学模型训练方法主要CTC和基于Attention两种。本文主要介绍CTC算法的基本概念,可能应用的领域,以及在结合神经网络进行CTC算法的计算细节。CTC算法概念转载 2020-09-13 14:17:20 · 641 阅读 · 0 评论 -
阿里开源自研语音识别模型DFSMN
转自:https://zhuanlan.zhihu.com/p/37846011阿里妹导读:近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech)。对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。开源地址:https://git转载 2020-09-13 12:59:54 · 1463 阅读 · 0 评论