![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 83
进击的煎饼果子
一入编程深似海,从此节操成路人.附上github主页
https://github.com/macqueen09
展开
-
ALBEF BLIP BLIP2前世今生
多模态方法发展历程 BLIP路线原创 2023-07-19 23:45:22 · 190 阅读 · 0 评论 -
Sequence to Sequence 经典必读两篇论文
Sequence to Sequence Learning with Neural Networks 论文Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation论文第一篇是Quoc V. Le 大神的2014年经典文章,引用量14161,只要涉及序列2序列,肯定要引用这篇文章,应用包括不限于语言翻译,音频识别,字符识别,序列识别等我分别概括下两篇开山论文的梗概Seq原创 2021-03-12 16:21:09 · 1789 阅读 · 0 评论 -
Fast multi-language LSTM-based online handwriting recognition 在线手写识别
Fast multi-language LSTM-based online handwriting recognition 在线手写识别paper在线手写识别,是区别于离线手写识别,即带书写轨迹的字符识别,比如平板,写字板等触摸屏活着触控笔等。带有笔迹时许信息。也区分单字识别(触屏输入法)和行识别(一次性写一行直接识别出来,666)本文是2019年的论文,我写一下论文概要谷歌的在线手写识别系统,在IAM-OnDB英文在线行识别数据集上最好。该系统将来自序列识别的方法与使用贝塞尔曲线的新输入编码相原创 2020-12-28 20:50:43 · 1028 阅读 · 0 评论 -
字符识别,口算题识别论文小梗概
口算题批改,在教育领域是一个比较实际的应用场景,小学生各种练习册中五花八门的数学口算题,写好答案之后通过拍照,自动批改,挑出题目中算错的题,提高作业正确率,大人小孩都需要。在小猿搜题等在线教育app里功能基本已经比较完备。口算题识别,说白了也就是特殊场景的字符识别,其中包括印刷体(题干)和手写体(作答内容)的混合识别。通过检测模型把口算题抠出来,然后送入识别模型得到字符,再判断题目是否作答正确。市面上常见的两个技术路线,腾讯使用ANMT,是基于2D attention单行多行统一的口算题识别模型。另原创 2020-11-26 15:50:28 · 1091 阅读 · 0 评论 -
模型部署架构,以Triton Inference Server(TensorRT)为例
模型训练只是DeepLearning的一小部分,模型部署有N种方式,由TensorRT改名升级来的Triton将成为Nvidia的主推,本文主要说下Triton的主要情况原创 2020-09-01 20:19:36 · 10873 阅读 · 7 评论 -
字符识别
公式识别首先基于文字序列识别,因而主体发展与文字识别有相近之处大多是检测+识别检测模型大多基于Faster R-CNN SSD FCN 等通用模型针对区域候选网络 、 多目标协同训练 、 特征提取 、 非极大值抑制 、 半监督式学习等方向进行改进字符识别,指的是对已分割出的文字区域进行识别文字内容CRNN( Convolutional Recurrent Neural Network)Shi Baoguang,Bai Xiang,Yao Cong. An end - to - end t原创 2020-09-01 19:28:32 · 5348 阅读 · 0 评论 -
为什么MobileNet及其变体(如ShuffleNet)会变快&什么时候会受限
Introduction在本文中,我概述了高效CNN模型(如MobileNet及其变体)中使用的组成部分(building blocks),并解释了它们如此高效的原因。特别地,我提供了关于如何在空间和通道域进行卷积的直观说明。在高效的模型中使用的组成部分在解释具体的高效CNN模型之前,我们先检查一下高效CNN模型中使用的组成部分的计算量,看看卷积在空间和通道域中是如何进行的。假设 H x W 为输出feature map的空间大小,N为输入通道数,K x K为卷积核的大小,M为输出通道数,则标准卷原创 2020-08-31 11:48:07 · 914 阅读 · 1 评论 -
YOLOv5 解读版本1——2020.8.20
YOLOv4 vs. YOLOv5data augmentation传统增强+CutOut在CNN第一层随机扔掉某一块Hide and seekMixUp按权重把两张图加一起CutMixcutout的区域加入另一张图的目标,应对遮挡问题,识别堆叠的目标物体Mosaic马赛克四张图片随机拼接成大图,缩放识别小物体缓解;batch压力class label smoothing引入均匀分布的噪声,平滑label,把类间距离放得更远了(原本只关注类内,不关注类间)对比YOLOv3原创 2020-08-20 20:51:20 · 3468 阅读 · 0 评论 -
聚类有效性分析
概述有ground-truth时黄金标准(Gold Standard)作为Benchmark,是基于人工的判断制作而成。在有了这个Benchmark后,我们就可以定义出外部标准,通过簇和黄金标准之间类别的匹配的程度来评估聚类结果的好坏。聚类质量四个外部标准:1 纯度(Purity) 是一种简单而透明的评估手段;2 标准化互信息(NMI, Normalized Mutual Information) 是从信息理论方面来评估;3 兰德指数(RI, Rand Index) 能度量聚类过程中的假阳性和假原创 2020-06-30 11:20:04 · 3202 阅读 · 0 评论 -
CenterNet: Objects as Points论文解读 目标检测、关键点检测论文及代码
先占个坑,之后肯定补(和博客里其他人TODO list然后就消失的那种不一样的)2020.5.14论文https://arxiv.org/pdf/1904.07850.pdf原创 2020-05-15 08:57:36 · 1527 阅读 · 3 评论 -
谷歌的手势识别pipeline
论文https://arxiv.org/abs/1701.01779使用自上而下,Faster R-CNN改版进行行人检测。ResNet101+空洞卷积+更密集的feature map对检测区域进行单人姿态估计。其中有几个细节:不仅局限于行人包围框来预测关键点使用预测出的关键点对BBox重新打分高于0.3分的proposals才进行关键点计算,平均每张图3.5个proposals...原创 2020-05-06 15:41:34 · 1003 阅读 · 0 评论 -
MobileNet网络系列论文及模型V1-V2-V3
MobileNet V1基于一种使用深度可分割卷积去建立轻量型网络结构的流线型结构。引进了两个简单的超参数,这两个超参数在延迟和准确率方面达到了平衡,宽度因子和分辨率因子。之前的网络要么大模型压缩为小模型;要么训练小模型。我们可以通过超参可调网络大小(有些论文只考虑模型规模,没直接考虑模型速度)结构深度可分离卷积Depthwise Separable Convolution将标准卷积分...原创 2020-04-08 11:34:05 · 1794 阅读 · 0 评论 -
CVPR2020 实例分割
实例分割Hao Chen陈昊 CVPR2020 BlendMask实例分割COCO上评价指标 mAP 每个实例,每张图选100个结果AP:每个结果与GT算IOU 0.5:0.05:0.95 十个取平均COCO泛化性好,不容易过拟合缺:COCO标注不过精细但是这个评价指标没有对更关注边界像素的情况,只是检测的IOU迁移过来的Cascade R-CNN , Mask R...原创 2020-03-25 23:15:23 · 2603 阅读 · 0 评论 -
周博磊.Phd《强化学习》课程
视频课链接github链接纲要Overview一个【agent】在不确定的【环境】中极大化自己的【奖励】agent并没有立刻获得反馈(不像有监督学习一次分类后就能有正确错误的反馈)与监督学习的对比:是序列的数据,并不是iid分布learner不得不自己发现某些行为,因为很多步之后才能看出奖励需要不断试错(需要在exploration exploitation之间平衡)没有sup...原创 2020-03-18 17:28:33 · 620 阅读 · 0 评论 -
面试过程中,机器学习中常见的最优化算法
目录机器学习中常见的最优化算法机器学习中常见的最优化算法原创 2020-03-02 15:31:41 · 276 阅读 · 0 评论 -
Batch Normalization论文翻译
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift五次面试有三次会问到BN层,这个点一定要从前世今生都吃透啊!论文超链接:https://arxiv.org/pdf/1502.03167v3.pdfAbstract通过要求较低的学习率和仔细的参数初始化减慢了...原创 2020-03-01 00:44:24 · 413 阅读 · 0 评论 -
旷世:高效准确的文字检测
EAST文字检测网络可以以很小的计算量,加在其他backbone之后改善检测效果主讲人赵明明具体,性能和准确率fscore 0.757 , fps 16.8 ,PVANet fps 16.8channel乘以2倍,fps13.2FCN+NMSEAST 详细 pipellinefeature mergingconv stage 包括conv pooling等、多层...原创 2020-02-28 23:42:25 · 465 阅读 · 0 评论 -
人脸对齐 旷世讲座
人脸识别系统应用:一人脸确认1V1确认是否是一个人二人脸ID1VN 大库里找到输入图片是谁人脸->特征向量想让不同的向量拥有“相似度”概念类内距离;类间距离单张图经过人脸识别的pipeline人脸检测人脸关键点定位Landmark人脸对齐Alignment(用来降低人脸几何形变,降低识别系统的复杂度)人脸识别(得到特征向量)要有这么一个函数图像空间->...原创 2020-02-27 21:01:58 · 516 阅读 · 0 评论 -
推荐系统在直播场景的应用(花椒直播)
推荐系统:帮助用户发现内容,克服信息过载通过分析用户行为,对用户兴趣建模,预测用户的兴趣早期,基于热度推荐:热度高的一般质量有保证,但是集中在头部,难以千人千面现代化推荐系统全样本,生成粗排序(百万),再生成精致排序(几百个),在推荐给用户(10量级)召回与排序。召回基于邻域的协同过滤1计算用户与物品的相似度矩阵2计算出用户对缺失物品的得分早期使用:基于主播的协同过滤由于是n...原创 2020-02-20 22:10:48 · 805 阅读 · 0 评论 -
NAS神经网络结构搜索简述
很多大厂针对具体任务已经开始普及NAS来定制网络了,因而总归要有所了解,不懂的话可以先快速上手概念和流程NAS虽然方法层出不穷,但基本都包括这三大部分:定义搜索空间;执行搜索策略采样网络;对采样的网络进行性能评估。接下来我们从这三个方面介绍NAS的发展现状。搜索空间大致分为:全局搜索空间、基于细胞的搜索空间前者搜索整个网络结构,后者搜索小的结构(通过堆叠、拼接等组成大网络)...原创 2020-02-14 23:38:59 · 951 阅读 · 0 评论 -
手撕SVM
即便使用率已经不高了,但是面试时手推SVM依然是传统。百度三面时就问了SVM所以还是要手撕SVM三宝:间隔,对偶,和技巧1.1 线性可分:二维面上两类点可被直线完全分开(高维则是超平面)1.2超平面,最大间隔超平面wx+b=0二维里就是a1 x1+a2x2+ b=0两类样本分别在超平面两边两侧距离超平面最近的样本点到超平面距离最大化两侧距离超平面最近的样本点,就是支持向量S...原创 2020-01-24 01:10:15 · 476 阅读 · 2 评论 -
损失函数的学习与选择
深度学习中,从简单的分类任务,到复杂的检测任务,姿态估计等任何任务,都必须包含一个函数的定义:损失函数。直观意思就是,模型预测出来的东西和实际ground truth区别有多大,只要设置的损失函数符合二者之间差别越大损失函数越大,差别越小损失函数越小,就挺好...原创 2020-01-09 21:22:05 · 1220 阅读 · 0 评论 -
目标检测论文核心思想,18-19-20年论文梗概
论文太多来不及看,有些论文用了很大篇幅印证了某种模块有用或者没用,对于不研究这部分的人来说了解一下结论,这个模块有什么优缺点就够了。因而记录一下2018-2019-2020这几年泛读的论文梗概:文章目录DetNet: A Backbone network for Object DetectionDetNet: A Backbone network for Object Detection论文...原创 2020-01-08 20:04:58 · 488 阅读 · 0 评论 -
FPD: Fast Human Pose Estimation 姿态估计cvpr2019论文阅读
from 电子科技大学姿态估计CVPR2019论文地址升级版论文Abstract姿态估计精度方面越来越好,但是网络越来越大。想通过减少少量精度得到一个可以在轻量级设备上运行的模型。使用一个 Fast Pose Distillation (FPD)。在强teacher network中学习一个小网络。在MPII和Leeds Sports Pose(LSP)上取得了很有效的效果Intro...原创 2020-01-04 18:01:14 · 2063 阅读 · 0 评论 -
图像对齐讲座—旷世成都研究院 & 数据策略产品经理——阿里讲座
刘帅成博士,旷世成都研究院,该院2018年成立,新加坡国立大学毕业目录:1基于传统算法2基于深度学习3基于硬件Image aligment methods图像对齐应用:图片拼接:不同视角拍的建筑拼成更大的一个画面,全景图去噪,防抖HDR不同曝光的同一场景,选取不同的曝光区域 拼接多摄像头协同工作,一个是长焦,一个是广角。视频防抖。挑战:1 重复特征:大厦窗口纹理很像,...原创 2019-12-18 21:21:29 · 1569 阅读 · 0 评论 -
深度学习中一些时而会忘的概念
Batch什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式另一个极端:就是每次只训练一个样本,即 Batch_Size = 1。这就是在线学习(Online Learning)。使用在线学习,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。...原创 2019-12-06 15:58:04 · 363 阅读 · 0 评论 -
讲座笔记:模型量化-更小更快更强 Dance with Bit ———哈佛大学.董鑫PHD
Dance with Bitrecord in 2019/11/21Quantization定长和变长精度:两个数字之间最小差别能有多小 32位单精度: 1.2*12^-38量化:浮点数->定点数:压缩网络的方法 Quantization矩阵的分解X= TP X是大矩阵100100 ,一共10000个, T是1002 P是2100 , 一共400 个参数只是内存优...原创 2019-11-21 22:28:55 · 311 阅读 · 0 评论 -
AlphaPose姿态估计论文翻译和代码解读RMPE: Regional Multi-Person Pose Estimation
姿态估计模型AlphoPose模型的论文 或者论文V3版 ICCV2017接收,上海交大和腾讯优图的妏代码 ,基于pytorch或者Tensorflow如果想了解姿态估计的简单概述,可以点击我的另一篇综述文章RMPE: Regional Multi-Person Pose EstimationAbstract自然场景的多人姿态估计是一个极大的挑战。虽然最好的人类检测器已经有很好的效果了...原创 2019-10-29 11:31:35 · 8343 阅读 · 3 评论 -
拥挤场景多人姿态估计论文梗概及代码CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark
姿态估计是视频动作分析识别的基础工作,我有一篇小综述讲了姿态估计相关技术路线的发展,可以点这个链接看。本文是MVIG大佬们发表在CVPR2019上的一篇论文,上号交通大学,基于AlphaPose思路,进一步提升了拥挤情况下准度代码:github点这,基于Pytorch,是实时多人姿态估计系统论文:论文点这论文第二版点这Abstract多人姿态估计是大量计算机视觉任务的基础,近年来也取得...原创 2019-10-28 20:49:53 · 1193 阅读 · 0 评论 -
《视频理解中的神经网络结构设计》讲座笔记 作者:邱钊凡
从视频动作识别、定位等多方面介绍网络结构带来的不同。作者 邱钊凡中国科学技术大学,在读博士生目录1. 第一部分:视频特征提取 Pseudo-3D残差网络 Local and Global Diffusion网络2. 第二部分:视频理解视频动作识别Local and Global Diffusion网络空间动作定位时域动作检测3. 第三部分:总结原创 2019-10-17 19:59:28 · 613 阅读 · 0 评论 -
姿态估计Rethinking on Multi-Stage Networks for Human Pose Estimation论文梗概及代码解读
2018年COCO关键点检测冠军算法MSPN,姿态估计,Top-down的技术路线应该是截止2019年10月26日时开源的最好的姿态估计算法之一了旷世出品代码链接点这,是基于Pytorch的论文链接点这摘要姿态估计方法以基本形成one-stage 和 multi-stage两个路线多阶段看上去更适合任务,但是现在多阶段的性能还是不如单阶段的我们论文就来研究这个问题,我们讨论当下多阶...原创 2019-10-16 20:40:54 · 2177 阅读 · 5 评论 -
tensorflow-CIFAR-10实例-代码解读
简单做一个记录吧纸质的写起来太费劲了,效率不高。把一些函数揉在一起了,只能算伪代码了,因为是给人看的嘛。最近看到cifar10.py中的def train():interence构建模型,最主要的是第一层定义衰减系数wd 用于向 losses 添加L2正则化,可以防止过拟合,提高泛化能力:def inference(images):# conv1 with tf.variable_scope...原创 2018-04-18 16:11:37 · 603 阅读 · 0 评论 -
tensorflow CIFAR-10_eval -模型评估的代码解读
按照训练时的checkpoint来进行模型的评估,首先这个程序默认是一直在运行的因为可以在边训练边看效果,当然,训练完了也可以只让他运行一次,anyway,都要改下面几个参数tf.app.flags.DEFINE_string('eval_dir', '/home/mkl/Documents/tensorflow_model/models/tutorials/image/cifar10/cifar...原创 2018-04-25 09:56:01 · 1145 阅读 · 0 评论 -
以cifar10为例,讲解TensorFlow数据的输入
前言数据输入一般包括一下8个部分,下面以cifar10为例讲解其中奥妙 1文件名列表 2可配置的文件名乱序 3可配置的最大训练迭代数 4文件名队列 5针对输入文件格式的阅读器 6记录解析器 7可配置的预处理器 8样本队列1获取文件名filenames=[os.path.join(data_dir,'data_batch_%d.bin'%i) for i in ra...原创 2018-05-29 22:51:45 · 437 阅读 · 0 评论 -
贼心不死安cuda记录-双显卡笔记本Ubuntu安装cuda9.0
Acer宏碁Aspier E 14系列,型号 E5-471G-57-WZIntel集成显卡Intel® HD Graphics 5500 (Broadwell GT2) + Nvidia Geforce 820M独显小破笔记本,就为了安个环境跑跑小的demo,双显卡安cuda真费劲,贼心不死,记录下尝试的各种过程,也许成了也能为类似情况提供一些建议。安装准备多次重装,Ubunt...原创 2018-12-04 19:21:24 · 3534 阅读 · 0 评论 -
Ubuntu下CUDA与gcc版本对应,降低gcc版本
gcc 4.5和4.6不支持CUDA - 代码不会编译,其余的工具链(包括cuda-gdb)将无法正常工作。唯一的解决方案是安装一个gcc 4.4版本作为第二个编译器(大多数发行版都可以)。–compiler-bindir可以用来指向另一个编译器的nvcc选项。创建一个本地目录,然后创建受支持的gcc版本可执行文件的符号链接。通过该–compiler-bindir选项将本地目录传递给nvcc ,...原创 2018-11-28 15:18:59 · 14327 阅读 · 2 评论 -
I3D视频分类论文梗概及代码解读Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
论文https://arxiv.org/pdf/1705.07750.pdf,from DeepMind ,CVPR2017代码https://github.com/LossNAN/I3D-Tensorflow2017年视频分类最好的网络,同时提供了VGG的预训练模型,网络端到端,简单易懂,便于部署及工程化。只是跑一下基本有个Tensorflow,单显卡就能训练和测试,效果还好,一绝。本文...原创 2019-08-19 22:01:08 · 12254 阅读 · 19 评论 -
Faster R-CNN论文翻译和PPT讲解
本论文是目标检测领域必看的一篇论文,论文下载地址点这里,2015年发表,任少卿,何凯明,RBG,孙剑,响当当的大佬对Faster RCNN的损失函数的一些具体讨论我在https://blog.csdn.net/u012925946/article/details/103883410博客链接中有详细描述摘要:先进的目标检测网络需要依赖region proposal区域提议来假设目标的位置...原创 2019-08-16 10:24:00 · 1259 阅读 · 1 评论 -
花书学习笔记
5.2 容量、过拟合和欠拟合奥卡姆剃刀:多个能够解释已知观测现象的假设中,选择那个“最简单”的。容量:拟合各种函数的能力,容量大于应用易过拟合,小于则易欠拟合。VC维:Vapnik-Chervonenkis dimension, 度量二元分类器的容量。参数模型: 函数观测到新数据之前,参数向量的分量个数有限且固定。(如线性回归)非参数模型:复杂度大小与训练集大小有关,(如最近邻回归)最...原创 2019-08-12 18:12:46 · 207 阅读 · 0 评论 -
Deep Sort目标跟踪论文梗概SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC
DeepSort是跟踪算法中非常好用的一个,速度快,准度高。本文为CVPR2017的跟踪算法。论文:https://arxiv.org/pdf/1703.07402.pdf代码:https://github.com/nwojke/deep_sort摘要简单在线和实时跟踪Simple Online and Realtime Tracking (SORT)是一种注重简单、高效的多目标跟踪的实...原创 2019-09-21 19:10:12 · 819 阅读 · 0 评论