机器学习
文章平均质量分 92
Loy_Fan
Life can not be planned
展开
-
Dead ReLU Problem 神经元坏死现象
Dead ReLU Problem(神经元坏死现象)假设某ReLu层的输入x\mathbf{x}x满足ReLU在负数区域被kill的现象叫做dead relu。ReLU在训练的时很“脆弱”。在x<0时,梯度为0。这个神经元及之后的神经元梯度永远为0,不再对任何数据有所响应,导致相应参数永远不会被更新。产生这种现象的两个原因:参数初始化问题;learning rate太高导致在训练过程中参数更新太大。解决方法正则化Batch Normalization、Group Normalization原创 2021-03-10 20:18:14 · 4259 阅读 · 0 评论 -
CTR预估系列炼丹入门手册
九羽-炼丹笔记大图FiBiNET:结合特征重要性和双线性特征交互进行CTR预估背景本文发表在RecSys 2019,主要通过动态学习不同特征的特征重要性权重,解决CTR预估中对不同场景下不同特征的权重(ReWeight)重定义问题,同时,双线性的使用解决稀疏数据在特征交叉建模时的有效性问题。创新由模型结构图我们可以发现,本文核心结构主要有两个,Embedding Layer中的SENET Layer 和 Bilinear-Interaction Layer 。其中 SENET La.原创 2020-09-15 17:19:07 · 334 阅读 · 0 评论 -
torchvision.transform图片转变/数据增强方法总结
来自官方文档-torchvision/transformstorchvision.transformCrop裁剪Flip and Rotation翻转和旋转图片变换对transform的后续操作Crop裁剪transforms.CenterCrop中心裁剪torchvision.transforms.CenterCrop(size)根据给定的size从中心裁剪,size可以是seque...原创 2020-04-17 14:16:28 · 4011 阅读 · 0 评论 -
《Search to Distill: Pearls are Everywhere but not the Eyes》论文阅读
[https://arxiv.org/abs/1911.09074] CVPR OralMotivation知识蒸馏一般是由 teacher,student 两个网络组成,teacher 一般是 ResNet 152 这样的大模型,student 一般是 Res50 这样的小模型。为了让小模型能学的更好,student 网络预测的结果不仅和 ground truth 算 loss,还和 t...转载 2020-04-11 12:14:39 · 387 阅读 · 0 评论 -
《Deep Mutual Learning》论文阅读
介绍模型蒸馏算法由Hinton等人在2015年提出,利用一个预训练好的大网络当作教师来提供小网络额外的知识即平滑后的概率估计,实验表明小网络通过模仿大网络估计的类别概率,优化过程变得更容易,且表现出与大网络相近甚至更好的性能。然而模型蒸馏算法需要有提前预训练好的大网络,且大网络在学习过程中保持固定,仅对小网络进行单向的知识传递,难以从小网络的学习状态中得到反馈信息来对训练过程进行优化调整。我们...转载 2020-04-10 09:26:24 · 1257 阅读 · 1 评论 -
《Do Deep Nets Really Need to be Deep》论文阅读
https://arxiv.org/abs/1312.6184Lei Jimmy Ba, Rich CaruanaNIPS 2014 引用量-964深层神经网络的性能相比浅层网络提升是因为什么?更多参数可以在给定相同数量参数的情况下学习更复杂的函数具有更好的归纳偏差,可以学习更有用的功能,学习层次表示非卷积网络很难学习到卷积网络学习到的特征表示当前的优化算法和正则化方法在深层...原创 2020-04-09 15:22:04 · 346 阅读 · 0 评论 -
《Net2Net: Accelerating Learning Via Knowledge Transfer》 论文阅读
Tianqi Chen, Ian Goodfellow, Jonathon Shlens, ICLR 2016 引用量-278https://arxiv.org/abs/1511.056411 简介知识迁移路径:预训练网络->更深/宽的网络目前很多任务都会训练多个不同的网络,每一个可能是对之前的网络的改进,但是每一个网络的训练都是从头开始的,很浪费,本文设计一个方法加快改进网络的...原创 2020-04-09 14:27:45 · 1142 阅读 · 0 评论 -
《PAYING MORE ATTENTION TO ATTENTION》论文阅读
论文全名 PAYING MORE ATTENTION TO ATTENTION: IMPROVING THE PERFORMANCE OF CONVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER介绍本文将knowledge定义为anttention map,student模仿teacher的attention map。与《A gift f...原创 2020-04-08 16:31:14 · 2087 阅读 · 1 评论 -
KL散度
相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量。在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。在信息理论中,...原创 2020-04-08 09:18:58 · 419 阅读 · 1 评论 -
认识迁移学习Transfer Learning
what why how原创 2020-04-02 14:34:56 · 269 阅读 · 0 评论 -
《Distilling the Knowledge in a Neural Network》阅读
knowledge distillation原创 2020-03-31 20:24:23 · 606 阅读 · 0 评论 -
高维特征降维可视化方法
高维特征降维可视化方法原创 2020-02-07 11:15:52 · 1733 阅读 · 0 评论 -
PyTorch学习率衰减函数
PyTorch学习率衰减函数使用原创 2020-02-05 12:07:25 · 800 阅读 · 0 评论 -
PyTorch预训练模型保存与加载
PyTorch使用自定义层预训练模型后,加载模型需要包含当时定义的网络结构原创 2020-02-03 16:20:37 · 2009 阅读 · 1 评论 -
《深度学习》花书 - 第十一章 实践方法论
Deep Learning - Chapter 1111 实践方法论11.1 性能度量11.2 默认的基准模型11.3 决定是否收集更多数据11.4 选择超参数11.4.1 手动调整超参数11.4.2 自动超参数优化算法11.4.3 网格搜索11.4.4 随机搜索11.4.5 基于模型的超参数优化11.5 调试策略11.6 示例:多位数字识别11 实践方法论要成功地使用深度学习技术,还需要知道...原创 2020-01-07 14:29:59 · 1073 阅读 · 0 评论 -
Keras使用TensorBoard可视化训练过程
添加关键代码在模型训练语句中添加回传训练信息的代码# 每隔一个训练循环就用柱状图显示信息callbacks = [keras.callbacks.TensorBoard(log_dir='自定义日志保存目录'.format(模型名称))]history = fashion_model.fit(训练集, 标签, epochs, batch_size, validation_split = 0...原创 2019-07-06 12:54:25 · 2027 阅读 · 0 评论 -
《深度学习》花书 - 第十章 序列建模:循环和递归网络
Deep Learning - Chapter 610 序列建模:循环和递归网络10.1 展开计算图10.2 循环神经网络10 序列建模:循环和递归网络循环神经网络( recurrent neural network)或 RNN (Rumelhart et al., 1986c)是一类用于处理序列数据的神经网络。就像卷积网络是专门用于处理网格化数据 X(如一个图像)的神经网络, 循环神经网络是...原创 2019-12-16 11:16:55 · 561 阅读 · 0 评论 -
《深度学习》花书 - 第九章 卷积网络
Deep Learning - Chapter 69 卷积网络9.1 卷积运算9.2 动机9.3 池化9.4 卷积与池化作为一种无限强的先验9.5 基本卷积函数的变体9.6 结构化输出9.7 数据类型9.8 高效的卷积算法9.9 随机或无监督的特征9.10 卷积网络的神经科学基础9.11 卷积网络与深度学习的历史9 卷积网络9.1 卷积运算9.2 动机9.3 池化9.4 卷积与池化作为一...原创 2019-12-15 21:36:06 · 786 阅读 · 0 评论 -
《深度学习》花书 - 第二章 线性代数
第二章 线性代数 Linear Algebra2.1 标量、向量、矩阵和张量 Scalars, Vectors, Matrices and Tensors标量:一个单独的数。向量:一列有序排列的数,通过索引可以确定每个单独的数。矩阵:一个二维数组,其中每个元素由两个索引所确定。 A∈Rm×n\boldsymbol{A} \in \mathbb{R}^{m \times n}A∈Rm×n实数...原创 2019-11-22 19:41:41 · 1227 阅读 · 0 评论 -
Maxout Networks - 论文阅读
ICML 2013 《Maxout Networks》Ian J. Goodfellow | David Warde-Farley | Mehdi Mirza | Aaron Courville | Yoshua Bengiopaper link1 概览这篇论文总结起来就是一个公式:hi(x)=maxj∈[1,k]zijh_{i}(x)=\max _{j \in[1, k]} z...原创 2019-11-22 16:23:03 · 268 阅读 · 0 评论 -
Torch的损失函数总结
nn.L1Loss取预测值和真实值的绝对误差的平均数。loss(x,y)=1N∑i=1N∣x−y∣\operatorname{loss}(\mathbf{x}, \mathbf{y})=\frac{1}{N} \sum_{i=1}^{N}|\mathbf{x}-\mathbf{y}|loss(x,y)=N1i=1∑N∣x−y∣nn.SmoothL1Loss也叫作 Huber Lo...原创 2019-08-17 10:55:29 · 1642 阅读 · 1 评论 -
《深度学习》花书 - 第六章 深度前馈网络
Deep Learning - Chapter 6深度前馈网络1 实例:学习XOR2 基于梯度的学习2.2 输出单元2.2.1 用于高斯输出分布的线性单元2.2.2 用于 Bernoulli 输出分布的 sigmoid 单元2.2.3 用于 Multinoulli 输出分布的 softmax 单元2.2.4 其他的输出类型3 隐藏单元3.1 整流线性单元及其扩展3.2 logistic sigmo...原创 2019-11-02 21:37:36 · 997 阅读 · 0 评论 -
GAN loss
传统GAN来源:https://arxiv.org/abs/1406.2661符号解释GGG Generator生成器DDD Discriminator判别器PdataP_{data}Pdata 真实数据分布PGP_GPG 生成器生成数据分布目标公式minGmaxDEx∼Pdata[logD(x)]+Ez∼PG[log(1−D(G(z)))]\min _{G} \max...原创 2020-10-20 16:48:44 · 604 阅读 · 0 评论 -
《深度学习》花书 - 第五章 机器学习基础
机器学习基础学习算法机器学习中所谓的“学习”是指:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习——通过经验E改进后,它能在任务T上由性能度量P衡量的性能有所提升。任务一般使用机器学习解决的任务是“确定性程序”很难解决的问题。常见的机器学习任务:分类、回归、图像处理、目标检测、自然语言处理等等性能度量定量评估机器学习算法的能力。比如:准确率Accuracy...原创 2019-10-12 16:22:04 · 638 阅读 · 0 评论 -
Convolutional Neural Networks with TensorFlow
article linkAditya SharmaMarch 10th, 2018In this tutorial, you’ll learn how to construct and implement Convolutional Neural Networks (CNNs) in Python with the TensorFlow framework.TensorFlow is a...转载 2019-04-26 22:25:55 · 668 阅读 · 0 评论 -
吴恩达机器学习在线课程--【实验三】完成和总结--包括完整代码
>吴恩达机器学习课程链接>课程总结和笔记链接实验三的原始代码和使用数据可至课程链接-课时67-章节9编程作业中下载Machine Learning Online Class - Exercise 3: One-vs-all and Neural NetworksOne-vs-allPart 1: Loading and Visualizing DataPart 2a: Vec...原创 2019-04-12 10:36:25 · 1675 阅读 · 0 评论 -
吴恩达机器学习在线课程--【实验一】完成和总结--包括完整代码
>吴恩达机器学习课程链接>课程总结和笔记链接AndrewNg Machine Learning ExerciseMachine Learning Online Class - Exercise 1: Linear Regression输出一个5X5单位矩阵显示数据集ex1data1.txt里的数据损失函数和梯度下降参数更新的视图主函数代码Machine Learning On...原创 2019-04-01 15:03:54 · 2822 阅读 · 12 评论 -
吴恩达机器学习在线课程--【实验二】完成和总结--包括完整代码
>吴恩达机器学习课程链接>课程总结和笔记链接AndrewNg Machine Learning Exercise——Matlab/OctaveMachine Learning Online Class - Exercise 2: Logistic Regression绘制二维分类数据图计算损失和梯度Machine Learning Online Class - Exercis...原创 2019-04-05 12:56:30 · 1253 阅读 · 2 评论 -
吴恩达机器学习在线课程总结和笔记(Chapter 1 - Chapter 10)
绪论Mar.9.2019什么是机器学习?Arthur samuel 1959年创造了这个词 “Machine Learning”——Field of study that gives computers the ability to learn without being explicitly programmed.“在没有明确设置的情况下,使计算机具有学习能力的研究领域。”编写...原创 2019-03-29 16:45:49 · 1573 阅读 · 0 评论 -
反向传播算法 基于维基百科的理解 | Back Propagation - Wikipedia
Back Propagation - Wikipedia反向传播(backpropagation)是一种用于人工神经网络的方法,用于计算在计算网络中使用的权重需要用到的梯度。反向传播是“误差反向传播”的简写,因为误差是在输出时计算的,并且从输出层往后分布于网络的各个层。它通常被用来训练深层神经网络。反向传播是将delta规则推广到多层前馈网络,通过使用链规则迭代计算每个层的梯度来实现。它与...原创 2019-04-23 14:35:22 · 811 阅读 · 0 评论 -
著名的CNN网络结构和Keras实现
LeNet 1989PaperLinkA layered model composed of convolution and subsampling operations followed by a holistic representation and ultimately a classifier for handwritten digits.AlexNet 2012NI...原创 2019-04-24 15:24:26 · 1671 阅读 · 0 评论 -
神经网络相关名词/知识点
神经网络通用batchsize 批尺寸iteration 迭代,使用一个batchsize训练一次epoch 迭代次数,使用全部样本训练一次batchsize * iteration = 1 epoch卷积层Convolution我们选取一个给定大小宽度和高度的滤波器(filter),将图片分成多个小块patch(patch大小与filter大小相同),用这个filter对图片的第一个...原创 2019-03-29 14:19:17 · 449 阅读 · 1 评论 -
基于Keras实现加密过的数据的卷积神经网络
来自奥胡斯大学密码学PhD、Datadog机器学习工程师Morten Dahl介绍了如何实现基于加密数据进行训练和预测的卷积神经网络。本文进行概括和总结工作使用一个经典CNN模型,使其能够用于基于加密数据进行训练和预测。动机CNN目前可以用于很多分析图像的领域。如果能够让实际使用的用户在应用场景下提供更多的数据,那么模型的性能肯定可以提高。但是这涉及很多用户的隐私问题,如果用户可以明确...原创 2019-04-30 19:35:10 · 1392 阅读 · 3 评论 -
性能评价指标
mAP假设目标分为两类,正例(Positive)和负例(Negative)名称解释真实模型判断TP(True Positive)正确被划分为正例的数量正例正例FP(False Positive)错误被划分为正例的数量负例正例TN(True Negative)正确被划分为负例的数量负例负例FN(False Negative)错误被...原创 2019-07-20 10:32:19 · 529 阅读 · 0 评论 -
Pix2Pix 代码理解(PyTorch)updating
论文:https://arxiv.org/abs/1611.07004代码:https://github.com/phillipi/pix2pix训练train.py 入口import的函数from options.train_options import TrainOptionsfrom data import create_datasetfrom models import cr...原创 2019-07-22 16:02:50 · 5667 阅读 · 2 评论 -
log-sum-exp 的计算溢出解决
原始的定义-1LogSumExp(x1…xn)=log(∑i=1nexi)\operatorname{Log} \operatorname{Sum} \operatorname{Exp}\left(x_{1} \ldots x_{n}\right)=\log \left(\sum_{i=1}^{n} e^{x_{i}}\right)LogSumExp(x1…xn)=log(i=1...原创 2019-10-02 17:32:18 · 1575 阅读 · 2 评论 -
ImageNet Classification with Deep Convolutional Neural Networks - AlexNet 2012文章解析和代码
NIPS 2012 《ImageNet Classification with Deep Convolutional Neural Networks》Alex Krizhevsky | Ilya Sutskever | Geoffrey E. Hintonhttps://papers.nips.cc/paper/4824-imagenet-classification-with-deep-c...原创 2019-03-29 16:21:22 · 463 阅读 · 0 评论