概率与统计
文章平均质量分 86
Paul-LangJun
凡事预则立,不预则废。
展开
-
长尾学习(二):Long-Tailed Classification by Keeping the Good andRemoving the Bad Momentum Causal Effect
最近关于长尾学习,接触到一篇从因果推断角度来解决长尾分类问题的文章——Long-Tailed Classification by Keeping the Good andRemoving the Bad Momentum Causal Effect,该文将长尾问题下暴露的问题抽象为一个,通过对该因果图做调整得到相应的因果效应,进而缓解长尾分类的性能。原创 2023-05-15 15:42:07 · 827 阅读 · 1 评论 -
通俗解释EMA
EMA,全称是指数移动平均,是一种给予近期数据更高权重的平均方法,详细的介绍可以参考:深度学习: 指数加权平均。 深度学习中常见的Adam、RMSProp和Momentum等优化算法内部都使用了EMA,由于使用了EMA这些算法常被称为自适应优化算法,可以随着训练过程的推移,自适应的调整参数的优化方向和步长,可以参考:深度学习中的Momentum算法原理。 假设有一个模型参数 ,EMA在优化器层面是一种局部时间窗口的加权平均,它只能通过对过去一个小的时间窗口内的梯度做加权并更新模型参数 ,如下图原创 2022-06-22 16:54:52 · 13496 阅读 · 0 评论 -
关于Bounding Box回归的深度思考
一、引子 在目标检测模型中,边界框回归用于微调模型设定或者学习到的候选框位置,使这些边界框更加接近实际的标注框,是提高目标检测精度的关键步骤之一。文献中一般仅对IOU大于某个阈值(如0.7)的边界框进行边界框回归,直观上的原因是什么,我思考良久,今天将个人的一些思考做下记录。二、线性回归 设特征集和为, 回归变量集和为,线性回归的任务是找到一组最优参数,使均方损失最小化。 ...原创 2021-04-30 15:16:42 · 643 阅读 · 0 评论 -
YOLO V1论文解读
一、背景 两阶段目标检测流程繁琐,不易掌控,且速度慢,无法满足需要实时性的检测任务。二、特点快速。每秒处理45帧,快速版本可处理150帧。 全局上下文编码。提供了更大的上下文信息,减少了对背景的误判数量。 可捕捉到目标的泛化表示。这使得yolo在不同领域、不同输入下能保持较高的精确度。 在小物体检测检测方面性能优良。三、几个概率 在文章中,涉及到了几个概率,下面对这些概率做一些说明。...原创 2021-04-06 22:01:27 · 427 阅读 · 1 评论 -
Focal Loss 简介
一、背景 目标检测可分为两阶段和一阶段算法两种,两种类别各有优缺点。 两阶段算法包含候选区域生成阶段和分类阶段,区域生成阶段负责生成候选区域,并过滤掉大部分的背景区域,虽然对训练效率大打折扣,但前景区域提取的相对准确,且前景和背景比例基本协调,精度因此一般很高。 一阶段算法省去了候选区域生成阶段,因此效率很高,但是基于滑动窗口的方式生成了大量的候选区域,导致背景区域数量显著多于前景区域,背景区域相对前景区域更容易区分,在大量容易区分的背景区域上进行模型训练无法捕捉到有效的分类信......原创 2021-02-28 22:40:03 · 1912 阅读 · 1 评论 -
深度学习中的He初始化
一、背景 He初始化是何凯明等提出的一种鲁棒的神经网络参数初始化方法,动机同Xaviar初始化基本一致,都是为了保证信息在前向传播和反向传播过程中能够有效流动,使不同层的输入信号方差大致相等。二、一些假设 关于参数的大部分假设同Xaviar初始化一致,但是,He初始化对应的是非线性激活函数(Relu 和 Prelu),而Xaviar初始化对应的是线性激活函数。符号假设参考原论文。三、推导 ...原创 2021-02-19 11:41:41 · 6860 阅读 · 2 评论 -
深度学习中的Xaviar初始化
一、背景 *************************************二、推导设输入为样本,假定它的各个维度方差一致设第层的输入向量为 ,其中第个激活单元的输入为设第 层的输出向量为 ,其中第 个激活单元的输出为,激活函数为线性函数表示第 层的权重矩阵 根据上述定义和假设,有: ...原创 2021-02-08 17:29:02 · 390 阅读 · 0 评论 -
深入理解CNN中的卷积和池化
对于卷积和池化是如何实现的,这个我想大部分人都明白,但是我觉得仅仅停留在这个层面还是对知识理解的不够透彻,我们还应该明白使用它们的原因是什么,它们有什么优点。因此,本着这个目的,重新审视了CNN中的卷积和池化两个关键概念。下面是后面说明将要用到的一张关于猫图像,这幅图像的尺寸是970*660。图1. 猫咪一、卷积的三大特性1.1、局部感受野 如果采用全连接层来提取图片的特征,并设隐层大小为 ,则输入层和隐层之间的权值矩阵规模将是,在存储和计算效率方面都是不能忍受的。把...原创 2020-12-18 13:07:27 · 1173 阅读 · 0 评论 -
基于word2vec和TextCNN的新闻标题分类器
一、背景 本人是做新闻爬虫相关工作。由于工作需要,经常需要将一个列表页中的a标签链接进行提前并进行抓取,但问题是,如何确定一个列表页大概率是新闻页面那?起初,通过一些规则的方法,比如新闻高频词来确定是否是新闻列表页,但是随着热词更新的滞后,规则匹配的效果变得很差,因此逐渐放弃了该方案。 后期,通过不断总结新闻标题的模式发现,新闻和非新闻的标题内容在用词以及语义上存在明显的区别,如果规则解决不了的问题,也许可以借助NLP方面的知识来解这个问题。经过先期调研,发现有很多通过NLP来实现对...原创 2020-12-02 18:00:33 · 1507 阅读 · 0 评论 -
对PCA的理解
一、概要 高维数据不同维度之间往往存在相关性,比如人的收入和职位,西瓜的色泽和光照强度等。 因此,为了便于分析数据,理解数据中的基本结构,需要将数据映射到一个维度互不相关的新坐标空间中,同时还要最大程度的保留原有数据的信息。 而主成分分析,就是满足这种需求的一种技术。二、准备工作 对数据进行主成分分析之前,需要将数据规范化,这主要是为了解决不同维度间标度不一致问题。主要做法是将数据每一维度的均值变为0,方差变为1。 为什么要这样做那? ...原创 2020-11-09 22:52:17 · 757 阅读 · 0 评论 -
深入理解SVD
本篇文章不会对SVD、PCA的相关理论过于深入的讲解,因为相关的优秀文章太多了。本文仅仅是对SVD以及PCA进行提纲挈领的一些介绍,忽略一些细节上的讲解。一、SVD概要 首先,SVD要干什么?它的作用是把任何一个实矩阵分解为三个子矩阵的乘积: ...原创 2020-11-07 15:20:40 · 1259 阅读 · 0 评论 -
GloVe详解
转载在: http://www.fanyeong.com/2018/02/19/glove-in-detail/转载 2020-09-23 10:50:32 · 469 阅读 · 0 评论 -
tensorflow中的word2vec代码注解
本文对谷歌开源的词向量生成工具 word2vec_basic.py 进行了注释,以备自己和需要了解其运行原理的同学理解其背后的机理,有注解不当之处还请及时提出,本人会不断修正,争取每一行代码都有正确和清晰的注解。 可以分为如下几个步骤。下载数据,将数据读取为列表格式 from __future__ import absolute_importfrom __future__ import print_functionimport collectionsimport mat...原创 2020-08-19 18:29:11 · 290 阅读 · 0 评论 -
深度学习: Dropout
Dropout: A simple Way to Prevent Neural Networks from Overfitting摘要 过拟合是机器学习领域较为突出的问题之一,很多方法已提出用于缓解过拟合。该文提出的方法是Dropout(剔除、删除等翻译即可)。只需记住一句话即可:在神经网络训练过程中随机删除一些激活单元以及与这些激活单元相连的边,这避免了激活单元之间过...原创 2018-07-21 17:09:50 · 1266 阅读 · 0 评论 -
通俗理解EM算法
如果使用基于最大似然估计的模型,模型中存在隐变量,就要用EM算法做参数估计。个人认为,理解EM算法背后的idea,远比看懂它的数学推导重要。idea会让你有一个直观的感受,从而明白算法的合理性,数学推导只是将这种合理性用更加严谨的语言表达出来而已。打个比方,一个梨很甜,用数学的语言可以表述为糖分含量90%,但只有亲自咬一口,你才能真正感觉到这个梨有多甜,也才能真正理解数学上的90%的糖分究竟是怎么样的。如果EM是个梨,本文的目的就是带领大家咬一口。001、一个非常简单的例子假设现在有两枚硬..转载 2020-05-15 14:00:58 · 243 阅读 · 0 评论 -
深度学习中的RMSprop算法原理
在https://blog.csdn.net/gaoxueyi551/article/details/105238182一文中,说明了基于Momentum的算法原理,本文介绍的RMSprop算法的引入背景是和Momentum算法相同的,底层理论依然是指数加权平均。 但是,两者优化思路存在些微差别。为了和Momentum算法中的符号相区别,引入和 ...原创 2020-04-08 11:15:30 · 3566 阅读 · 0 评论 -
深度学习中的Momentum算法原理
一、介绍 在深度学习中,Momentum(动量)算法是对梯度下降法的一种优化, 它将物理学中物体的运动理论和梯度下降相结合,其特点是直观易懂,已成为目前非常流行的深度学习优化算法之一。 在介绍动量优化算法前,需要对指数加权平均法有所了解,它是动量优化算法的理论基础,可参见本人另外一篇博文:深度学习: 指数加权平均;其次,需要对物理运动理论稍有了解,以便在直观层面更好的理解该...原创 2020-04-01 10:46:24 · 17941 阅读 · 6 评论 -
一种有效的神经网络权重初始化方法
本文介绍一种权重初始化方法,它可以很大程度上避免神经元过早饱和而导致的学习率下降问题。一、介绍 一种简单而有效的方法是将每个权重看作一个服从均值为0且方差为1的高斯分布,然后独立的对每个权重从分布中采样进行初始化。如下图所示。假设输入层有1000个神经元,我们聚焦第二层的第一个隐单元来研究这个问题。同时,假设这1000个输入神经元中有500个值为0, 另外500个值为1。...原创 2020-03-11 14:22:59 · 197 阅读 · 0 评论 -
理解逻辑回归中的后验概率和损失函数
一、理解后验概率 在LR中, 后验概率。很多人不禁会问,为什么要这么计算? 这里通过对后验概率的推导,并结合sigmod,来谈谈自己的看法。 首先,由贝叶斯公式得 (1) 由...原创 2019-12-28 22:49:36 · 1744 阅读 · 0 评论 -
理解均摊时间复杂度
均摊时间复杂度分析,又叫摊还分析(或者叫平摊分析)。均摊时间复杂度,听起来跟平均时间复杂度有点儿像。对于初学者来说,这两个概念确实非常容易弄混。大部分情况下,我们并不需要区分最好、最坏、平均三种复杂度。平均复杂度只在某些特殊情况下才会用到,而均摊时间复杂度应用的场景比它更加特殊、更加有限。我还是借助一个具体的例子来理解。 // array表示一个长度为n的数组 // 代码中...原创 2019-12-26 15:28:45 · 4082 阅读 · 0 评论 -
概率统计中的常用公式及其推断
原创 2017-08-23 08:26:51 · 1200 阅读 · 0 评论