2020年06月_deephub

原创手推公式：LSTM单元梯度的详细的数学推导

长短期记忆是复杂和先进的神经网络结构的重要组成部分。本文的主要思想是解释其背后的数学原理，所以阅读本文之前，建议首先对LSTM有一些了解。介绍上面是单个LSTM单元的图表。我知道它看起来可怕????,但我们会通过一个接一个的文章,希望它会很清楚。解释基本上一个LSTM单元有4个不同的组件。忘记门、输入门、输出门和单元状态。我们将首先简要讨论这些部分的使用，然后深入讨论数学部分。忘记门顾名思义，这部分负责决定在最后一步中扔掉或保留哪些信息。这是由第一个s型层完成的。根据h_t-1(以前的隐藏

2020-06-30 09:27:56 7298 1

原创使用PyTorch从理论到实践理解变分自编码器VAE

变分自动编码器（Variational Auto Encoders，VAE）是种隐藏变量模型[1，2]。该模型的思想在于：由模型所生成的数据可以经变量参数化，而这些变量将生成具有给定数据的特征。因此，这些变量被称为隐藏变量。而VAE背后的关键点在于：为了从样本空间中找到能够生成合适输出的样本（就是能输出尽可能接近我们所规定分布的数据），它并没有试图去直接构造一个隐藏空间(隐藏变量所在的空间)，而是构造了一个类似于具有编码器和解码器两个部分的网络：编码器部分能够学习到根据输入样本X来形成一个特定分布，从中

2020-06-29 08:46:28 6520

原创降维算法：主成分分析 VS 自动编码器

降维是一种减少特征空间维度以获得稳定的、统计上可靠的机器学习模型的技术。降维主要有两种途径：特征选择和特征变换。特征选择通过选择重要程度最高的若干特征，移除共性的或者重要程度较低的特征。特征转换也称为特征提取，试图将高维数据投影到低维空间。一些特征转换技术有主成分分析（PCA）、矩阵分解、自动编码器（Autoencoders）、t-Sne、UMAP等。本文主要介绍了主成分分析以及自动编码器两种方法，具体分析两者的优缺点，并且通过一个生动的示例进行详解。主成分分析主成分分析是一种无监督技术，将原始数

2020-06-28 08:46:36 11743 2

原创为什么在线性模型中相互作用的变量要相乘

在这篇文章中,我将解释为什么当建立一个线性模型,我们添加一个x₁₂术语如果我们认为变量x₁和x₂互动和添加交互条款订立原则方法。我假设读者对线性模型的工作原理有一个基本的了解。无交互模型让我们从构建一个没有相互作用项的模型开始。假设我们想要模型y的函数x₁和x₂。则描述该关系的线性模型为:图1:没有相互作用项的线性模型一个变斜率的模型假设我们认为x₁实际上取决于x₂的斜率。我们如何将这种信念融入到模型中?因为我们正在与线性模型,方法之一是模型β₁作为另一个x的函数₂线性模型,如下所示:

2020-06-27 11:06:12 5318

原创熵、交叉熵和KL散度的基本概念和交叉熵损失函数的通俗介绍

交叉熵（也称为对数损失）是分类问题中最常用的损失函数之一。但是，由于当今庞大的库和框架的存在以及它们的易用性，我们中的大多数人常常在不了解熵的核心概念的情况下着手解决问题。所以，在这篇文章中，让我们看看熵背后的基本概念，把它与交叉熵和KL散度联系起来。我们还将查看一个使用损失函数作为交叉熵的分类问题的示例。什么是熵？为了开始了解熵到底指的是什么，让我们深入了解信息理论的一些基础知识。在这个数字时代，信息是由位（0和1）组成的。在通信时，有些位是有用的，有些是多余的，有些是错误的，等等。当我们传递信息时，

2020-06-26 10:11:57 5698

原创为什么朴素贝叶斯定理会被叫做朴素的？

朴素贝叶斯算法是一种基于著名贝叶斯定理的分类算法。那么让我们先了解一下Bayes定理是怎么说的，并为朴素贝叶斯算法定理建立z自己的理解，它是如何工作的，它有什么是如此天真？贝叶斯定理在深入研究贝叶斯定理之前，我们需要了解一些术语-独立事件和从属事件边际概率联合概率条件概率独立事件和从属事件考虑两个事件A和B。当事件A的发生概率不依赖于事件B的发生时，则A和B是独立的事件。例如，如果你有两枚普通硬币，那么两枚硬币的正面概率都是0.5。因此，事件是独立的。现在考虑一个包含5个球的盒子-2个

2020-06-25 10:24:44 5861

原创 BN，LN，IN，GN都是什么？不同归一化方法的比较

批处理归一化(BN)已经成为许多先进深度学习模型的重要组成部分，特别是在计算机视觉领域。它通过批处理中计算的平均值和方差来规范化层输入，因此得名。要使BN工作，批大小必须足够大，通常至少为32。但是，在一些情况下，我们不得不满足于小批量:当每个数据样本高度消耗内存时，例如视频或高分辨率图像当我们训练一个很大的神经网络时，它只留下很少的GPU内存来处理数据因此，我们需要BN的替代品，它能在小批量下很好地工作。组归一化(GN)是一种最新的规范化方法，可以避免利用批处理维，因此与批处理大小无关。不同的归.

2020-06-24 08:57:47 6719 1

原创如何找到时序数据中线性的趋势

有时需要从时序数据中删除趋势，为下一步或数据清理过程的一部分做准备。如果您可以确定趋势，那么只需从数据中减去它，结果就是非趋势数据。如果趋势是线性的，你可以通过线性回归找到它。但如果趋势不是线性的呢?我们一会儿就会看到我们能做些什么。但是在此之前，我们先看看什么叫线性趋势线性趋势下面是带有趋势的时序数据:https://raw.githubusercontent.com/FlorinAndrei/misc/master/qdata.csv让我们加载它，看看它是什么样子:import panda

2020-06-23 09:31:17 5914

原创 keras搭建基于自动编码器的异常检测技术进行欺诈识别

信用卡欺诈可以被归类为一种异常，使用Keras中实现的自动编码器可以检测欺诈我最近阅读了一篇名为《使用自动编码器进行异常检测》的文章，在该文中对所生成的数据进行了实验，并且我认为将使用自动编码器进行异常检测这一想法应用于真实世界当中的欺诈检测中，似乎是一个不错的主意。我决定从Kaggle中使用信用卡欺诈数据：该数据集包含有在2013年9月欧洲持卡人的信用卡交易信息。这个数据集显示了两天内发生的交易，其中在284,807次交易中有492次为欺诈数据。这样的数据集是相当不平衡的，其中正类(欺诈)数据占所

2020-06-22 09:12:18 6088

原创流行的机器学习算法总结，帮助你开启机器学习算法学习之旅

机器学习算法概述“机器智能是人类永远需要的一项发明。”— Nick Bostrom. 如果您可以回顾几年前的AI并将其与现在的AI进行比较，您会惊讶地发现AI的发展速度随着时间的增长呈指数级增长。它已扩展到各种领域，例如ML，Expert Systems，NLP等数十个领域。尽管AI的思路是构建可以自行思考和执行的更智能的系统，但仍然需要对其进行训练。 AI的ML领域是为实现非常精确的目标而创建的，它引入了多种算法，从而可以更顺畅地进行数据处理和决策。什么是机器学习算法.

2020-06-21 09:42:57 4504

原创使用Keras 构建基于 LSTM 模型的故事生成器

LSTM 网络工作示意图什么是 LSTM 网络？LSTM （Long Short Term Memory, 长短期神经网络）是一种特殊的循环神经网络（RNN, Recurrent neural networks）。LSTM 能够通过更新单元状态来学习参数间的长期依赖关系，目前在机器翻译、语言识别等领域有着广泛应用。LSTM 的使用背景当你读这篇文章的时候，你可以根据你对前面所读单词的理解来理解上下文。你不会从一开始或者从中间部分阅读就能够直接理解文本意义，而是随着你阅读的深入，你的大脑才最终形.

2020-06-20 13:46:15 6937 1

原创 EfficientNet原理详解：用智能缩放的卷积神经网络获得精度增益

自从Alex net在2012年ImageNet挑战赛中获胜后，卷积神经网络就在计算机视觉领域中无处不在。它们甚至在自然语言处理中也有应用，目前最先进的模型使用卷积运算来保留上下文并提供更好的预测。然而，与其他神经网络一样，设计cnn网络的关键问题之一是模型缩放，例如决定如何增加模型的尺寸，以提供更好的准确性。这是一个冗长的过程，需要手动命中和试验，直到产生一个足够准确的模型，满足资源约束。这个过程耗费资源和时间，并且常常产生精度和效率都不理想的模型。考虑到这一问题，谷歌在2019年发表了一篇论文，对一

2020-06-19 09:05:45 5686

原创 NLP中的文本分析和特征工程

语言检测，文本清理，长度测量，情绪分析，命名实体识别，n字频率，词向量，主题建模前言在本文中，我将使用NLP和Python解释如何分析文本数据并为机器学习模型提取特征。NLP(自然语言处理)是人工智能的一个领域，研究计算机和人类语言之间的交互，特别是如何编程计算机来处理和分析大量的自然语言数据。NLP经常被应用于文本数据的分类。文本分类是根据文本数据的内容给文本数据分配类别的问题。文本分类最重要的部分是特征工程:从原始文本数据为机器学习模型创建特征的过程。在本文中，我将解释分析文本和提取可用于构建

2020-06-18 09:39:16 5864

原创通过三个直观步骤理解ROC曲线

ROC曲线是一个分类模型效果好坏评判的的可视化表示。在这篇文章中，我将分三个步骤头开始构建ROC曲线。步骤1:获取分类模型预测当我们训练一个分类模型时，我们得到得到一个结果的概率。在这种情况下，我们的例子将是偿还贷款的可能性。概率通常在0到1之间。价值越高，这个人就越有可能偿还贷款。下一步是找到一个临界值，将概率分类为“会偿还”或“不会偿还”。在图1的例子中，我们选择了0.35的阈值:所有达到或超过这个门槛的预测，都被归类为“会偿还”所有低于这个阈值的预测，被归类为“不会偿还”然后我们看

2020-06-17 08:47:36 8464 2

原创从LeNet到EfficientNet：CNN的演变和特点总结

这是一个了解CNN主流变化和特点的旅程。卷积神经网络：构建基块卷积神经网络（或简称CNN）是提取“可学习特征”的常用方法。 CNN在深度学习和神经网络的发展与普及中发挥了重要作用。但是，这篇博客中，我将重点放在完整的CNN架构上，而不是只关注单个内核。我们可能无法逐一浏览CNN历史上的每个主要发展节点，但是我将尝试带您了解常见的CNN架构如何随着时间演变。您需要对什么是CNN有所了解。卷积神经网络：概述LeNet：一切开始的地方 LeNet是第一个将反向传播应用于实际应用的

2020-06-16 08:41:53 4565

原创循环生成网络 CycleGan 原理介绍

本文旨在解释“循环生成网络”的内部工作原理，以及如何将其应用于解决现实世界中的任务。介绍循环生成对抗网络（简称CycleGans）[1]是功能强大的计算机算法，具有改善数字生态系统的潜力。它们能够将信息从一种表示形式转换为另一种表示形式。例如，当给定图像时，他们可以对其进行模糊处理，着色（如果其最初是黑白的），提高其清晰度或填补缺失的空白。它们比传统的设计/生产/写作软件更强大。因为CycleGans是机器学习算法，所以它们原则上可以学习实现所需的任何转换。相反，传统的转换软

2020-06-15 09:56:27 12905 1

原创 5种常用的交叉验证技术，保证评估模型的稳定性

Kaggle的数据科学黑客大会最有趣和最具挑战性的一件事是：在公共和私有的排行榜中，努力保持同样的排名。当我的结果在一个私有的排行榜进行验证时，我就失去了共有的排名。你有没有想过是什么原因导致了这些排名的高差异?换句话说，为什么一个模型在私有排行榜上评估时会失去稳定性?在本文中，我们将讨论可能的原因。我们还将学习交叉验证和执行它的各种方法。模型的稳定性?总是需要验证你的机器学习模型的稳定性。换句话说，你不能把这个模型与你的训练数据相匹配，并预测它的未来日期，然后希望它每次都能...

2020-06-14 12:49:46 6327

原创通俗易懂的讲解奇异值分解(SVD)和主成分分析(PCA)

图片来自Unsplash上的Dave0.本教程包含以下内容特征分解对称矩阵的特征分解奇异值分解（The Singular Value Decomposition，SVD）主成分分析（Principal Component Analysis ，PCA）——特征提取1.特征分解首先，我们简单回顾下特征值和特征向量的定义。在几何学中，矩阵A的特征向量是指一个经过与矩阵A变换后方向保持不变的向量（其中，假设特征值均为实数）。而特征值为在这个变化中特征向量的比例因子。具体可...

2020-06-13 19:19:20 8340 1

原创为文本摘要模型添加注意力机制：采用LSTM的编解码器模型实现

摘要是自然语言处理领域中最具挑战性和最有趣的问题之一。它是一个从多种文本资源(如书籍、新闻文章、博客文章、研究论文、电子邮件和tweet)中生成简洁而有意义的文本摘要的过程。现在，随着大量的文本文档的可用性，摘要是一个更加重要的任务。那么有哪些不同的方法呢?萃取总结这些方法依赖于从一段文本中提取几个部分，比如短语和句子，然后将它们堆在一起创建摘要。因此，在提取方法中，识别出用于总结的正确句子是至关重要的。让我们通过一个例子来理解这一点。Text: Messi and Ronaldo have be

2020-06-12 09:34:19 6916 1

原创极限学习机 Extreme Learning Machines 介绍

什么是极限学习机？极限学习机（ELM, Extreme Learning Machines）是一种前馈神经网络，最早由新加坡南洋理工大学黄广斌教授于2006年提出。其发表的文章中对于极限学习机的描述如下：该算法具有良好的泛化性能以及极快的学习能力极限学习机和标准神经网络的区别ELM 不需要基于梯度的反向传播来调整权重，而是通过 Moore-Penrose generalized inverse来设置权值。标准的单隐藏层神经网络结构如下：单隐藏层神经网络其计算过程如下：输入值乘以权重值

2020-06-11 09:13:36 7263

原创使用Numpy进行深度学习的5大优化算法的性能比较

在本文中，我们将通过计算二次凸函数的最优点来数值比较主要的深度学习优化算法的性能。简介深度学习被称为人工智能的未来。现在，神经网络被称为通用函数逼近器，也就是说，它们有能力表示这个宇宙中任何复杂的函数。计算这个具有数百万个参数的通用函数的想法来自优化的基本数学。优化可以通过多种方式完成，但在本文中，我们将重点讨论基于梯度下降的优化技术。非凸函数的优化是研究的主要领域。多年来，不同的科学家提出了不同的优化算法来优化神经网络的成本函数。这些算法大部分都是基于梯度的方法，稍作修改。在这篇文章中，我们将讨论5

2020-06-10 09:24:37 4942

原创推荐系统的PMF - 概率矩阵分解和协同过滤

自动化推荐系统通常用于根据现有的偏好数据为用户提供他们感兴趣的产品建议。文献中通常描述了不同类型的推荐系统。我们这篇文章将突出介绍两个主要类别，然后在第二个类别上进一步扩展：基于内容的过滤：这些过滤器利用用户偏好来做出新的预测。当用户提供有关其偏好的明确信息时，系统会记录并使用这些信息来自动提出建议。我们日常使用的许多网站和社交媒体都属于此类。协同过滤：当用户提供的信息不足以提出项目建议时，会发生什么情况？在这些情况下，我们可以使用其他用户提供的具有相似首选项的数据。此类别中的方法利用了一组用

2020-06-09 09:48:58 5945

原创机器学习模型生产环境部署的四种系统架构总结

机器学习模型生产环境部署的四种系统架构总结本文将从简单到复杂介绍典型架构的特点以及其优缺点。介绍一旦数据科学家对模型的性能感到满意，下一步便是“模型生产环境部署”，没有系统的合理配置，您的Kaggle Top1模型可能只是垃圾。在本文中，我想谈一谈机器学习生产环境部署的的4种典型体系结构设计。每个正式生产的体系结构均应至少具有两个功能：学习：系统应允许模型根据业务需求进行重做。预测：系统应根据前端（例如需要预测的Web应用程序）的要求返回预测。尽管我用简单的图表讨论了四种体系结构，

2020-06-08 09:30:16 8072 1

原创 DNN，CNN和RNN的12种主要dropout方法的数学和视觉解释

深入研究DNN，CNN和RNNDropout方法以进行正则化，蒙特卡洛不确定性和模型压缩## 动机在（深度）机器学习中训练模型时的主要挑战之一是协同适应。这意味着神经元彼此非常依赖。它们彼此之间影响很大，并且在输入方面不够独立。找到某些神经元具有比其他神经元重要的预测能力的情况也是很常见的。换句话说，我们的输出可能会过度依赖一个神经元。为了避免这些影响，必须分配权重以防止过拟合。某些神经元的共适应和高预测能力可以用不同的正则化方法来调节。其中最常用的一种是Dropout。但是，大多数情况

2020-06-07 12:41:05 6442

原创算法大赛神器:集成学习方法关键点介绍

本文的目的是介绍集成学习方法的各种概念。将解释一些必要的关键点，以便读者能够很好地理解相关方法的使用，并能够在需要时设计适合的解决方案。我们知道，各种学习模型误差表现在以下几个方面：数据噪声、偏差（偏差过大的模型往往不具备较好的性能，通常不能反映重要的趋势性特征）、方差（方差过大的模型往往表现为过拟合，不能够较好应用于未知数据集，不具备较好的泛化能力）。因此，首先让我们简单地解释一下集成学习，以了解它如何针对这些类型的误差：集成学习是将不同的学习算法组合成一个预测模型的策略。它的核心方法在于“投票”.

2020-06-06 13:55:28 5088

原创 Adam 优化算法详解

据牛津字典的定义，优化是指最好或最有效地利用一种情况或资源，或者简单地使自己的事物达到最佳状态的行为。通常，如果可以对某事进行数学建模，则很有可能可以对其进行优化。这在深度学习领域起着至关重要的作用（可能是整个人工智能），因为您选择的优化算法可能是在数分钟，数小时或数天（有时甚至是数周）内获得高质量结果的区别。在这篇文章中，我们将阐述：什么是Adam Optimizer？在深度学习模型中使用Adam进行优化有什么好处？Adam如何工作？什么是Adam Optimizer？Adam Opt

2020-06-05 08:56:43 11870 1

原创使用假设检验分析PS4，XBox，Switch 谁是最好的游戏主机

在索尼准备推出PS5的时候，微软绞尽脑汁想办法在下一款游戏机的名称中加入字母“X”，现在是回顾第八代视频游戏机的好时机，我们来尝试使用假设检验判断哪一款游戏机，可以说是“最好的”。索尼在2013年推出的PS4销量超过了1.1亿台（XBox One在同一时间段内的销量令人失望，达到了4700万台，而Switch在2017年发布后的销量也达到了5500万台）。当然，这些统计数据对消费者的影响很小，我们只能假设，消费者对游戏机的商业性能的关注程度，不如他们对游戏质量的关注。但我们如何判断游戏的质量呢？正如这句.

2020-06-04 09:31:23 5446

原创 DevOps与机器学习的集成：使用Jenkins自动调整模型的超参数

任务描述创建使用Dockerfile安装Python3和Keras或NumPy的容器映像当我们启动镜像时，它应该会自动开始在容器中训练模型。使用Jenkins中的build pipeline插件创建job1、job2、job3、job4和job5的作业链Job1：当一些开发人员将repo推送到Github时，自动拉Github repo。Job2：通过查看代码或程序文件，Jenkins应该自动启动安装了相应的机器学习工具或软件的映像容器，以部署代码并开始培训（例如，如果代码使用

2020-06-03 09:17:55 4376

原创 15个能使你工作效率翻倍的Jupyter Notebook的小技巧

概述在数据科学界，Jupyter Notebook是一个受欢迎的工具，采用率很高。本文旨在分享一些很酷的技巧和技巧，帮助您在使用Jupyter Notebook的同时提高效率。了解如何从Jupyter Notebook执行终端命令，通过隐藏输出加快速度，向Jupyter Notebook添加其他功能，等等！技巧1-使用常用快捷键快速导航了解这些快捷方式可以帮助你节省时间。我已经用黄色强调了我常用的那些，并且发现它们非常有用。如果忘记了快捷方式，则始终可以转到命令模式并按H键查看完整列表。Jupyte.

2020-06-02 09:11:19 6252

原创机器学习中评估分类模型性能的10个重要指标

在这篇文章中，我们将学习10个最重要的模型性能度量，这些度量可用于评估分类模型的模型性能。以下是我们将通过示例以相互关联的方式研究的10个指标：Confusion MatrixType I ErrorType II ErrorAccuracyRecall or True Positive Rate or SensitivityPrecisionSpecificityF1 ScoreROC Curve- AUC ScorePR Curve一旦我们了解了适当的用法以及如何根据问题陈述

2020-06-01 08:53:41 7636

deephub