深度学习
文章平均质量分 75
snoopy_21
这个作者很懒,什么都没留下…
展开
-
完整MatterportLayout数据集处理
获取Matterport数据集申请详细访问Matterport3D官方仓库,下载申请表MP_TOS.pdf,填写说明:然后用英文简单介绍使用该数据集用途,发送给matterport3d@googlegroups.com,我当天晚上就收到回复,一般没什么问题,Matterport那边就会回复你。使用其提供的下载脚本进行下载。下载我这里提供批量下载脚本:import osimport argparseimport zipfileimport subprocessdef sh(comm原创 2021-07-10 21:49:13 · 1968 阅读 · 10 评论 -
【PyTorch】Caught RuntimeError in DataLoader worker process 0和invalid argument 0: Sizes of tensors mus
报错如下:Traceback (most recent call last): File "/home/jiang/miniconda3/envs/Net/lib/python3.6/site-packages/tqdm/std.py", line 1178, in __iter__ for obj in iterable: File "/home/jiang/miniconda3/envs/Net/lib/python3.6/site-packages/torch/utils/data/原创 2021-07-03 19:50:57 · 26772 阅读 · 5 评论 -
【代码解读】Transformer: attention-is-all-you-need-pytorch
学习transformer时对GitHub上项目:attention-is-all-you-need-pytorch进行了部分中文注释,主要集中在以下几个文件。注释后完整代码:attention-is-all-you-need-pytorch,结合这篇文章一起理解。Models.py''' Define the Transformer model '''import torchimport torch.nn as nnimport numpy as npfrom transformer.Lay原创 2021-05-12 23:26:17 · 1320 阅读 · 0 评论 -
实验:ML-LHY-HW8:seq2seq
笔记:ML-LHY: Attention-based Model / Conditional Generation by RNN & Attention实验,本文代码在TA代码上轻微修改。Datasetdata example(train, validation, test):it 's none of your concern . 這不關 你 的 事 。 she has a habit of bi@@ ting her na@@ ils . 她 有 咬 指甲 的 習慣 。 he .原创 2021-02-09 23:00:26 · 352 阅读 · 0 评论 -
pytorch中的NLLLoss和CrossEntropy
直接计算CrossEntropyimport torchimport torch.nn.functional as F先按照流程手动计算CrossEntropyclass_dim = 3z = torch.Tensor([[3, 1, -3]])ztensor([[ 3., 1., -3.]])softmax过程,图片来自这里y = torch.nn.Softmax(dim=1)(z)ytensor([[0.8789, 0.1189, 0.0022]])注意:交叉熵在信息论原创 2021-01-30 16:44:47 · 422 阅读 · 1 评论 -
论文笔记:Corners for layout: End-to-end layout recovery from 360 images(CFL EquiConvs)(RAL 2020)
本文方法侧重2点改进:1.以往方法依赖假设,比如房间限制是个box或者是manhattan布局,通用性被限制2.实时性,以往方法可能无法满足机器人导航和AR/VR需求使用EquiConvs(本文重点),一种直接应用在球面投影图像上以解决扭曲问题项目地址INTRODUCTION布局估计应用场景:AR/VR、机器人导航、房地产。Manhattan假设或者布局简化box-shaped layouts,不能很好拟合丰富的室内布局。传统相机视野受限,所以要使用FOV=360的全局相机,但是全景图.原创 2020-12-06 14:32:07 · 799 阅读 · 5 评论 -
Kears(TensorFlow2.2.0)在Android中部署(C++调用)
环境系统:mac osTensorFlow·:2.2.0注意本文步骤的运行环境,其他不同版本环境未测试,仅供参考。TensorFlow Lite 指南TensorFlow Lite 是一组工具,可帮助开发者在移动设备、嵌入式设备和 IoT 设备上运行 TensorFlow 模型。它支持设备端机器学习推断,延迟较低,并且二进制文件很小。TensorFlow Lite 包括两个主要组件:TensorFlow Lite 转换器(converter),它可将 TensorFlow 模型转换为高效形式原创 2020-11-01 19:21:31 · 1408 阅读 · 0 评论 -
笔记:ML-LHY-12:Semi-supervised
这节课主要介绍半监督机器学习方法,首先解释为什么半监督有用,在概率分布的生成式模型中使用半监督算法(EM算法)以及self-training和他们对比剩下一半介绍两种正则方法,Entropy-based Regularization和Smoothness Assumption,前者基于信息论稳定理论,后者基于图结构连通介绍监督学习:{(xr,y^r)}r=1R\left\{\left(x^{r}, \hat{y}^{r}\right)\right\}_{r=1}^{R}{(xr,y^r).原创 2020-10-06 23:25:32 · 186 阅读 · 0 评论 -
【随记】TensorFlow 2.2 GPU错误:Could not load dynamic library ‘libcudart.so.10.1
同事把CUDA从10.1升级到10.2了,原本以为更新一下TensorFlow就行,结果遇到一些问题记录环境CUDA:10.2tensorflow:2.2.0python:3.6版本符合官网的要求执行:import tensorflow as tftf.test.is_gpu_available()放回False报错内容W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load .原创 2020-09-30 00:19:25 · 1455 阅读 · 0 评论 -
Keras中evaluate/evaluate_generator和predict/predict_generator理解
具体各个函数参数可以查看官方文档evaluate/evaluate_generatorevaluate接收的参数更为简单,大多数情况只需指定x和y。evaluate_generator需要指定datagenerator。自定义datagenerator,带来的好处就是可以异步加载数据到内存,支持多线程等。下面以evaluate_generator为例,介绍使用方法:# Loss Functionmodel_func = { 'loss': tensor_angle_loss, '原创 2020-09-26 17:50:48 · 8521 阅读 · 0 评论 -
Keras自定义数据生成器和数据增强教程
本文翻译:A detailed example of how to use data generators with Keras 。主要是想分享其通用框架和自定义数据增强。By Afshine Amidi and Shervine Amidi数据增强的动机在小规模数据集上,我们往往一次性把数据读入内存。但是随着数据越来越多,数据集加载本身就已经占用很多内存,如果再进行数据增强,很可能导致内存无法一次性读取这么多数据。我们需要一个灵活的数据读取和增强方式。所以这篇博客将要展示如实时生成数据集和数.原创 2020-09-24 23:32:29 · 2773 阅读 · 2 评论 -
论文笔记:SSD: Single Shot MultiBox Detector
一、基本信息标题:SSD: Single Shot MultiBox Detector时间:2016引用格式:Liu, Wei, et al. “Ssd: Single shot multibox detector.” European conference on computer vision. Springer, Cham, 2016.二、研究背景相比Faster RCNN有明显的速度优势,相比YOLO又有明显的mAP优势(不过已经被YOLO v2 超越)。SSD的速度比Faster R原创 2020-09-04 01:38:46 · 1596 阅读 · 0 评论 -
论文笔记:YOLOv3: An Incremental Improvement(yolo v3)
一、基本信息标题:YOLOv3: An Incremental Improvement时间:2018引用格式:Redmon, Joseph, and Ali Farhadi. “Yolov3: An incremental improvement.” arXiv preprint arXiv:1804.02767 (2018).二、研究背景YOLOv1:提出和R-CNN不同的方式,去掉检测Proposal步骤,利用网格划分粗略位置,然后使用回归预测进行微调。虽然速度很快,但是每个网格只有2个bb原创 2020-08-30 23:33:08 · 2598 阅读 · 0 评论 -
【温故知新】Linner Regression、Logistic Regression、Softmax Regression区别与联系
先来回顾一下Linner Regression和Logistic Regression,而Softmax Regression可以认为是多类别的Logistic Regression。因为看过李宏毅老师的视频,这里就以他的讲解作为基础。本文 从Linner Regression和Logistic Regression对比导入2分类问题的Logistic Regression然后介绍多分类的Logistic Regression,实际上就是Softmax Regression,以及它们之间关系最后说.原创 2020-08-30 18:42:20 · 431 阅读 · 0 评论 -
论文笔记:YOLO9000: Better, Faster, Stronger(yolo v2)
一、基本信息标题:YOLO9000: Better, Faster, Stronger时间:2016引用格式:Redmon, Joseph, and Ali Farhadi. “YOLO9000: better, faster, stronger.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.二、研究背景三、创新点四、实验结果五、结论与思考作者结论总结思考参考原创 2020-08-27 23:18:39 · 923 阅读 · 0 评论 -
【温故知新】Batch Normalization原理
本文只用作记录(摘抄),建议看参考原文,详细得多!机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。Internal Covariate Shift(ICS)对于深度学习这种包含很多隐层的网络结构,在训练过程中,因为各层参数不停在变化,所以每个隐层都会面临covari.原创 2020-08-26 22:46:49 · 341 阅读 · 0 评论 -
【温故知新】深度学习中各个评价、性能指标
统计部分真实\预测101TPTN0FPFNPrecision(查准率)公式:Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}Precision=TP+FPTP分母是预测为1的那一列数目加和,分子是真实为1的数目。所以Precision代表的含义就是预测为Positive中真实值确实是Positive的比值。衡量预测有多准确。但是存在一个问题就是,如果Recall(查全率)公式:Precision=TPTP+原创 2020-08-23 22:14:21 · 959 阅读 · 0 评论 -
论文笔记:You Only Look Once: Unified, Real-Time Object Detection(yolo v1)
一、基本信息标题:You Only Look Once: Unified, Real-Time Object Detection时间:2016引用格式:Redmon, Joseph, et al. “You only look once: Unified, real-time object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.二、研究背景R-C原创 2020-08-22 17:37:19 · 1162 阅读 · 0 评论 -
【温故知新】RoI Pooling、RoI Align、ROI Warping pooling、PS-ROI Pooling、PS-ROI Align、PrROI Pooling
RoI Pooling在Fast R-CNN首次出现了ROI Pooling下面以Fast R-CNN为例可以看到先对原图进行卷积,得到卷积层,在将Selective Search选择的proposals对应到卷积层。由于proposal尺寸不一样,需要进行RoI pooling,比如下面是卷积层:有一个proposals:划分网格,paper里设置的是7 * 7,下图是2 * 2:每个网格选最大值(max pooling一个意思):动画:和SPP对比,就是只有一层(尺度)的SP原创 2020-08-20 23:30:04 · 1735 阅读 · 3 评论 -
【温故知新】语义分割、实例分割、全景分割区别
本文转自 https://my.oschina.net/u/876354/blog/3055850图像分割(image segmentation)是计算机视觉中非常重要的研究和应用方向,是根据某些规则将图片中的像素分成不同的部分、打上不同标签。图解如下:1、图像分类(image classification)识别图像中存在的内容,如下图,有人(person)、树(tree)、草地(grass)、天空(sky)像CNN,ALexNet,VGG,GooLeNet、ResNet,这些网络提出时都是做.原创 2020-08-20 00:00:49 · 484 阅读 · 0 评论 -
论文笔记:Mask R-CNN
一、基本信息标题:Mask R-CNN时间:2018引用格式:Mask R-CNN He, Kaiming, et al. “Mask r-cnn.” Proceedings of the IEEE international conference二、研究背景Faster R-CNN最终得到是bbox和类别,而且对小物体检测不太准确,所以本文提出一种除了可以检测box和类别外,还可以检测mask的网络。就是Mask R-CNN。三、创新点主要在2点:应用了FPN,对小物体检测更准添加了上原创 2020-08-19 23:59:39 · 900 阅读 · 0 评论 -
论文笔记:Feature Pyramid Networks for Object Detection(FPN)
一、基本信息标题:Feature Pyramid Networks for Object Detection时间:2017引用格式:Lin, Tsung-Yi, et al. “Feature pyramid networks for object detection.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.二、研究背景为了检测小物体,最常用的做法是构建金字塔,比如S原创 2020-08-18 23:53:46 · 1323 阅读 · 0 评论 -
论文笔记:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
一、基本信息标题:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks时间:2016引用格式:Ren, Shaoqing, et al. “Faster r-cnn: Towards real-time object detection with region proposal networks.” Advances in neural information processing systems.原创 2020-08-16 14:58:18 · 1303 阅读 · 0 评论 -
论文笔记:Fast R-CNN
一、基本信息标题:Fast R-CNN时间:2015论文领域:物体检测引用格式:Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE international conference on computer vision. 2015.二、研究背景三、创新点四、实验结果五、结论与思考作者结论总结思考参考...原创 2020-08-07 00:14:23 · 988 阅读 · 0 评论 -
论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation(R-CNN)
一、基本信息标题:Rich feature hierarchies for accurate object detection and semantic segmentation时间:2014领域:物体识别引用格式:Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the原创 2020-07-12 19:44:20 · 2516 阅读 · 0 评论 -
论文笔记:动作识别概要
对该问题的理解动作识别一般指从2D序列帧组成的视频中分辨不同动作,并且动作有可能只在一定区间出现。但是动作识别存在以下问题:1、需要巨大的计算耗时:如过时间域信息不可避免就需要多帧运算,其参数比单帧图像分类问题将会多出几倍。2、需要考虑上下文:例如图像模型很容易识别人和泳池,但无法识别该人动作是自由泳还是蛙泳。3、设计网络结构:设计一个能够获取时空信息的网络是非常重要的,而且结构的验证也是非常耗时的。4、没有一个标准的基准: 目前基准数据一直是UCF101和Sports1M,Sports1M数据在原创 2020-07-12 11:33:54 · 1371 阅读 · 0 评论 -
论文笔记(动作识别1):Convolutional Two-Stream Network Fusion for Video Action Recognition
一、基本信息标题:Convolutional Two-Stream Network Fusion for Video Action Recognition时间:2016引用格式:Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE conference on computer vision原创 2020-07-03 00:07:04 · 717 阅读 · 0 评论 -
论文复现:Unsupervised Learning of Depth and Ego-Motion from Video(SfMLearner)
期末作业最后一天,实验总算有点进展,记录下配置过程环境项目地址:https://github.com/tinghuiz/SfMLearnerGPU:GTX 950M系统: Win 10python:3.5建议使用conda 创建虚拟环境tensorflow-gpu:1.2.1pip install tensorflow-gpu==1.2.1 -i https://mirrors.aliyun.com/pypi/simple/项目主页标的1.0,直接安装1.0会报错:ValueError:原创 2020-06-27 10:52:01 · 1379 阅读 · 4 评论 -
论文笔记:Unsupervised Learning of Depth and Ego-Motion from Video(无监督深度预测系列4:PoseCNN方法)
一、基本信息标题:Unsupervised Learning of Depth and Ego-Motion from Video时间:2017论文领域:深度预测、深度学习引用格式:Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern原创 2020-06-25 12:29:18 · 1659 阅读 · 0 评论 -
论文笔记:Semi-Supervised Deep Learning for Monocular Depth Map Prediction(无监督深度预测系列3:半监督方法)
一、基本信息标题:Semi-Supervised Deep Learning for Monocular Depth Map Prediction时间:2017引用格式:Kuznietsov Y, Stuckler J, Leibe B. Semi-supervised deep learning for monocular depth map prediction[C]//Proceedings of the IEEE conference on computer vision and patter原创 2020-06-24 23:35:46 · 1006 阅读 · 0 评论 -
论文笔记:UnsupervisedMonocular Depth Estimation with Left-Right Consistency(无监督深度预测系列2: Left-Right 方法)
一、基本信息标题:UnsupervisedMonocular Depth Estimation with Left-Right Consistency时间:2017论文领域:深度预测、深度学习引用格式:Godard C, Mac Aodha O, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]//Proceedings of the IEEE Conference on Compu原创 2020-06-24 00:37:47 · 873 阅读 · 0 评论 -
论文笔记:Fully-Convolutional Siamese Networks
一、基本信息标题:Fully-Convolutional Siamese Networks for Object Tracking时间:2016论文领域:目标跟踪、深度学习引用格式:Bertinetto L, Valmadre J, Henriques J F, et al. Fully-convolutional siamese networks for object tracking[C]//European conference on computer vision. Springer, Ch原创 2020-06-22 23:47:12 · 783 阅读 · 0 评论 -
论文笔记:FCOS: Fully Convolutional One-Stage Object Detection
一、基本信息标题:FCOS: Fully Convolutional One-Stage Object Detection时间:2019论文领域:目标检测、深度学习引用格式:Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 96原创 2020-06-20 00:16:10 · 403 阅读 · 0 评论 -
【温故知新】目标检测中的FPN
FPN作用类似图像金字塔,在论文笔记中记录的一样,模拟人的视觉,从远到近观察物体:顶部-低分辨率 检测到的是尺寸更大的物体底部-高分辨率 检测到的是尺寸更小的物体FPN提出a每层都预测一次,缺点:计算量太大b最后一层预测,浅层关注细节,高层关注语义,所以很多网络(AlexNet\VGG\ResNet(有考虑一点连接上层信息))使用最后一层预测类别c应该是b的基础上多加上浅层的预测输出,缺点:不鲁棒d就是FCN,L2 1*1卷积降维,L4上采样,处理后相加得L5其他待完善…参考原创 2020-06-18 23:40:58 · 354 阅读 · 0 评论 -
【温故知新】目标检测中的NMS(非极大抑制)
NMS(non maximum suppression)有很多box,每个box对应了类别和概率,如果相同类别的box重叠,就把小概率的给去掉。也就是去除没用的box。就像上面的图片一样,定位一个车辆,最后算法就找出了一堆的方框,我们需要判别哪些矩形框是没用的。所谓非极大值抑制:先假设有6个矩形框,根据分类器类别分类概率做排序,从小到大分别属于车辆的概率分别为A<B<C<D<E<F。(1) 从最大概率矩形框F开始,分别判断A、B、C、D、E与F的重叠度IOU是否大原创 2020-06-18 22:53:36 · 398 阅读 · 0 评论 -
论文笔记:Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue(无监督深度预测系列1:naive方法)
一、基本信息标题:Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue时间:2016论文领域:深度预测、深度学习引用格式:Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depth estimation: Geometry to the rescue[C]//European Conference on Computer原创 2020-06-18 22:25:00 · 1103 阅读 · 0 评论 -
论文笔记:Digging into self-supervised monocular depth estimation
一、基本信息标题:Digging into self-supervised monocular depth estimation时间:2019出版源:ICCV论文领域:深度学习、深度预测、三维重建引用格式:Godard C, Mac Aodha O, Firman M, et al. Digging into self-supervised monocular depth estimation[C]//Proceedings of the IEEE International Conference原创 2020-06-13 00:43:25 · 2489 阅读 · 0 评论 -
论文笔记:Deeper Depth Prediction with Fully Convolutional Residual Networks
一、基本信息标题:Deeper Depth Prediction with Fully Convolutional Residual Networks时间:2016引用格式:Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth international conference on 3D vision (原创 2020-06-10 23:08:25 · 724 阅读 · 0 评论 -
论文笔记:Deep Residual Learning for Image Recognition(ResNet)
一、基本信息标题:Deep Residual Learning for Image Recognition时间:2015第一作者:Kaiming He论文领域:深度学习、计算机视觉、CNN引用格式:He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognit原创 2020-06-09 00:28:57 · 5065 阅读 · 1 评论 -
论文笔记:Going deeper with convolutions(GoogLeNet)
一、基本信息标题:Going deeper with convolutions时间:2014出版源:IEEE论文领域:深度学习,CNN引用格式:Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9.二、研究背景随着移动设备和嵌入式发展,算法原创 2020-06-07 16:15:41 · 3494 阅读 · 0 评论