2020年11月_deephub

原创论文解读：使用带门控卷积进行生成式深层图像修复方法

今天，我们将深入研究一种名为DeepFill v2的非常实用的生成型深层图像修复方法。本文可以视为DeepFill v1，Partial Convolution和EdgeConnect的增强版本。简单的说，DeepFill v1中提出的上下文注意（CA）层和EdgeConnect中引入的可选的用户草图输入概念都嵌入在DeepFill v2中。同样，部分卷积（PConv）被修改为门控卷积（GConv），其中基于规则的掩码更新被公式化为可学习的下一卷积层的门控。有了这些想法，DeepFill v2可以.

2020-11-30 09:11:55 7592

原创使用自编码器进行数据的匿名化以保护数据隐私

使用自编码器可以保持预测能力的同时进行数据匿名化数据。在这篇文章中，我们将看到如何使用自动编码器(一种特殊的人工神经网络)来匿名化数据。该方法所提取的数据的潜在表示可以在不影响原始数据性能的前提下用于下游的机器学习预测任务中。本教程分为两个部分。在第一个例子中，我将展示一个自动编码器的结构。在第二部分中，我将展示如何使用自动编码器对表格数据进行编码，以匿名化数据，并将其用于其他机器学习任务，同时保护隐私。Autoencoder自动编码器是一种特殊的神经网络，由编码器和解码器两部分组成。编码器部分接收

2020-11-29 09:30:33 3842 1

原创手动搜索超参数的一个简单方法

深度学习是人工智能的一个分支，我们让模型自己通过特征学习并得到结果。我们不硬编码任何逻辑或算法，它会自动尝试特性之间的不同关系，并选择支持正确预测的最佳关系集。我们并没有让模型盲目地尝试，而是设定了一些超参数。为了解释超参数，我们可以举一个孩子在IPad上玩的例子。你不能控制他/她在上面玩什么或看什么，但你可以控制孩子在上面花了多少时间。类似地，我们可以调整这些超参数，使模型对特征进行评级，在此基础上生成预测结果。在使用深度学习和机器学时会需要处理许多超参数，而调优它们可能是一件非常麻烦的事情。在机器

2020-11-28 08:34:11 3473

原创 PIFuHD简介：使用AI从2D图像生成人的3D高分辨率重建

关于这篇新文章的最酷的事情是，他们在Google colab上提供了一个演示，您可以在其中轻松地自己尝试一下，正如我将在本文中展示的那样！但首先，让我们看看他们是如何做到的。Facebook和南加州大学的研究人员最近推出了一篇名为“ PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization”的新论文。简而言之，它使用某人的2D图像来重构该人的3D高分辨率版本。我们的主.

2020-11-27 09:19:58 6080 1

原创在Pytorch中构建流数据集

在处理监督机器学习任务时，最重要的东西是数据——而且是大量的数据。当面对少量数据时，特别是需要深度神经网络的任务时，该怎么办?如何创建一个快速高效的数据管道来生成更多的数据，从而在不花费数百美元在昂贵的云GPU单元上的情况下进行深度神经网络的训练?这是我们在MAFAT雷达分类竞赛中遇到的一些问题。我的队友hezi hershkovitz为生成更多训练数据而进行的增强，以及我们首次尝试使用数据加载器在飞行中生成这些数据。要解决的问题我们在比赛中使用数据管道也遇到了一些问题，主要涉及速度和效率：它没有利

2020-11-26 09:16:13 3223

原创 10分钟了解图嵌入

知识图谱中的客户数据样本以及该图中附加的嵌入向量去年，图嵌入在企业知识图谱（EKG）策略中变得越来越重要。图形嵌入将很快成为在大型十亿顶点EKG中快速找到相似项目的实际方法。实时相似性计算对于许多领域至关重要，例如推荐，最佳行动和队列构建。本文的目的是使您直观地了解什么是图形嵌入以及如何使用它们，以便您可以确定这些嵌入是否适合您的EKG项目。对于那些具有一定数据科学背景的人，我们还将介绍如何计算它们。在大多数情况下，我们将使用讲故事和隐喻来解释这些概念。我们希望你能用这些故事向你的非技术同行.

2020-11-25 09:42:33 4863

原创再见卷积神经网络，使用Transformers创建计算机视觉模型

本文旨在介绍/更新Transformers背后的主要思想，并介绍在计算机视觉应用中使用这些模型的最新进展。读完这篇文章，你会知道……为什么Transformers在NLP任务中的表现优于SOTA模型。Transformer模型的工作原理这是卷积模型的主要限制。Transformers如何克服卷积模型的限制。用Transformers完成计算机视觉任务。长期依赖和效率权衡在NLP中，神经语言模型的目标是创建对文本中的单词语义尽可能多的信息进行编码的嵌入。这些语义不仅限于单词的定义，实际上

2020-11-24 09:45:49 7457 2

原创 SEAM论文解读：弱监督语义分割的自监督等变注意力机制

语义分割是一项基本的计算机视觉任务，其目的是预测图像的像素级分类结果。由于近年来深度学习研究的蓬勃发展，语义分割模型的性能有了长足的进步。然而，与其他任务(如分类和检测)相比，语义分割需要收集像素级的类标签，这既耗时又昂贵。近年来，许多研究者致力于弱监督语义分割(WSSS)的研究，如图像级分类标签、涂抹和边界盒等，试图达到可与全监督方法相媲美的分割性能。[1]侧重于通过图像级分类标签进行语义分割。目前最先进的弱监督语义分割方法都是基于类激活特征图(CAM)实现的，它是一种通过图像分类标签定位目标的有效方法

2020-11-23 08:55:05 6765 1

原创特征选择介绍及4种基于过滤器的方法来选择相关特征

特征选择是面试中一个非常受欢迎的问题。这篇文章能带你了解这方面相关的知识。为什么要使用特征选择你熟悉鸢尾花的数据集吗?（sklearn自带小型数据集）即使是最简单的算法也能得到如此美妙的结果，这难道不令人惊叹吗?很抱歉让你失望了，但这是不现实的。大多数情况下，特征的数量§比样本的数量(N)要多得多(p>>N)——这也被称为维数诅咒。但是，为什么这是个问题呢高维数据可能导致以下情况：训练时间长过度拟合即使不是p>>N，有一长串机器学习算法可以假设自变量。采用特征.

2020-11-22 10:07:41 5925

原创 Python和VizViewer进行自动驾驶数据集可视化

探索Lyft预测数据集与一个新的可视化工具包（本篇文章动图超过了CSDN上传限制无法上传，所以请访问原文地址或关注我们的同名公众号deephub-imba查看）介绍作为最近发表的论文和Kaggle竞赛的一部分，Lyft公开了一个用于构建自动驾驶路径预测算法的数据集。数据集包括语义地图、自我车辆数据和车辆附近移动物体的动态观察数据。Lyft对这个数据集提出的挑战是使用这个数据来建立一个模型，可以预测移动物体的路径，以及基于AV传感器和感知堆栈的观察得出的自动车辆(AV)应该走的路径。更具体地说，挑

2020-11-21 11:26:38 7533 5

原创 Python中的时间序列数据可视化的完整指南

时间序列数据在许多不同的行业中都非常重要。它在研究、金融行业、制药、社交媒体、网络服务等领域尤为重要。对时间序列数据的分析也变得越来越重要。在分析中有什么比一些好的可视化效果更好呢?没有一些视觉效果，任何类型的数据分析都是不完整的。因为一个好的情节比20页的报告更能让你理解。因此，本文是关于时间序列数据可视化的。我将从一些非常简单的可视化开始，然后慢慢地转向一些高级的可视化技术和工具在开始之前，我需要再弄清楚一件事。标题中的“完整指南”并不意味着，它有所有的可视化。在这么多不同的库中有这么多的可视化.

2020-11-20 10:00:15 22426 1

原创 PyTorch中的傅立叶卷积：通过FFT有效计算大核卷积的数学原理和代码实现

卷积卷积在数据分析中无处不在。几十年来，它们已用于信号和图像处理。最近，它们已成为现代神经网络的重要组成部分。在数学上，卷积表示为：尽管离散卷积在计算应用程序中更为常见，但由于本文使用连续变量证明卷积定理（如下所述）要容易得多，因此在本文的大部分内容中，我将使用连续形式。之后，我们将返回离散情况，并使用傅立叶变换在PyTorch中实现它。离散卷积可以看作是连续卷积的近似值，其中连续函数在规则网格上离散化。因此，我们不会为离散情况重新证明卷积定理。卷积定理在数学上，卷积定理可以表示为：.

2020-11-19 09:10:42 6966 2

原创神经网络中的损失函数正则化和 Dropout 并手写代码实现

在深度神经网络中最常用的方法是Regularization和dropout。在本文中，我们将一起理解这两种方法并在python中实现它们Regularization 正则化正则化通过在损失函数的末尾添加额外的惩罚项来帮助防止模型过度拟合。其中m是批次大小。所示的正则化称为L2正则化，而L2对权重应用平方，而L1正则化则采用绝对值，其形式为| W |。当权重过多或权重太大时，附加的额外项会增加损失，并且可调整因子λ着重说明了我们要对权重进行多少惩罚。为什么添加惩罚会有助于防止过度拟合？直

2020-11-18 09:14:56 4183

原创 Pandas与SQL的数据操作语句对照

介绍SQL的神奇之处在于它容易学习，而它容易学习的原因是代码语法非常直观。另一方面，Pandas不是那么直观，特别是如果像我一样首先从SQL开始。就我个人而言，我发现真正有用的是思考如何在SQL中操作数据，然后在Pandas中复制它。所以如果你想更加精通Pandas，我强烈建议你也采用这种方法。因此，本文可以作为一个备查表、字典、指南，无论你想怎么称呼它，这样你在使用Pandas时就可以参考它。说了这么多，让我们开始吧!内容选择行结合表条件过滤根据值进行排序聚合函数选择行SELE.

2020-11-17 09:09:24 3833

原创通过数据分析找出Netflix最适合学习英语的电影和电视剧

分析Netflix的1500部电视剧和电影找出哪一部最适合学习英语。截至2020年，Netflix上大约有3712部电影和1845部电视节目。如果你正在学习英语，有很多内容可以选择，但你可能没有时间看完所有的内容。这就是为什么需要数据科学技能来分析Netflix上最好的1500部电影和电视节目的文本。这样做的目的是为你提供许多不错的选择，以便您可以找到自己喜欢的电影或电视节目，这对学习英语也很有帮助，而不是强迫您观看不喜欢的电视节目。为了找到Netflix上最好的电影和电视节目，我比较了对话中使用的

2020-11-16 08:58:29 4454

原创孤立森林:大数据背景下的最佳异常检测算法之一

孤立森林或“iForest”是一个非常漂亮和优雅简单的算法，可以用很少的参数来识别异常。原始的论文对广大的读者来说是容易理解的，并且包含了很少的数学知识。在这篇文章中，我将解释为什么iForest是目前最好的大数据异常检测算法，提供算法的总结，算法的历史，并分享一个代码实现。为什么iForest是目前最好的大数据异常检测算法iForest有着基于ROC性能和精度的一流的综合性能。iForest在各种数据集上的性能均优于大多数其他异常值检测（OD）算法。我从Python离群值检测包（PyOD）的作者那.

2020-11-15 10:26:01 6185 1

原创 Python手写决策树并应对过度拟合问题

介绍决策树是一种用于监督学习的算法。它使用树结构，其中包含两种类型的节点：决策节点和叶节点。决策节点通过在要素上询问布尔值将数据分为两个分支。叶节点代表一个类。训练过程是关于在具有特定特征的特定特征中找到“最佳”分割。预测过程是通过沿着路径的每个决策节点回答问题来从根到达叶节点。基尼不纯度和熵术语“最佳”拆分是指拆分之后，两个分支比任何其他可能的拆分更“有序”。我们如何定义更多有序的？这取决于我们选择哪种指标。通常，度量有两种类型：基尼不纯度和熵。这些指标越小，数据集就越“有序”。.

2020-11-14 08:51:08 3440

原创用对线阶段数据分析和预测《英雄联盟》的游戏结果

使用来自大约10K游戏的前10分钟数据来预测高elo排名游戏的结果介绍《英雄联盟》是一款以团队为基础的战略游戏，两支拥有五名强大召唤师的队伍将面在峡谷中进行对决，而团队的目标是拆掉对方的基地。一场典型的英雄联盟游戏通常需要持续30到45分钟，并且每个游戏可以分为三个阶段：对线阶段，中期和后期。玩家通常会花前10到15分钟在自己的分路（上，中，下，JG）中进行发育，以尽早获得装备和等级上的优势。在游戏的中期阶段，玩家开始专注于宏观层面：推线，拆塔，获取地图目标（男爵，小龙）以及进行区域的小团战。

2020-11-13 09:23:56 5979 3

原创使用局部卷积对不规则缺失的图像进行修复的论文解读

今天，我想谈谈一篇很好的深层图像修复论文，它打破了以前的修复工作的某些限制。简而言之，大多数以前的论文都假设缺失区域是规则的（即中心缺失矩形孔或多个小矩形孔），并且本文提出了局部卷积（PConv）层来处理不规则孔。图1显示了使用建议的PConv的一些修复结果。看样子还不错，那么让我们一起了解PConv的主要思想！动机首先，先前的深层图像修复方法在将缺失像素和有效像素填充到图像中所有缺失像素的固定像素值（归一化之前/之后为255或1）的意义上相同，并将标准卷积应用于像素用于修复任务的输入图像。.

2020-11-12 09:26:01 6355 2

原创使用Sentence Transformers和Faiss构建语义搜索引擎

介绍您是否曾经想过如何使用Sentence Transformers创建嵌入向量，并在诸如语义文本相似这样的下游任务中使用它们?在本教程中，您将学习如何使用Sentence Transformers和Faiss构建一个基于向量的搜索引擎。代码地址会在本文的最后提供为什么要构建基于向量的搜索引擎？基于关键字的搜索引擎很容易使用，在大多数情况下工作得很好。你要求机器学习论文，他们会返回一堆包含精确匹配或接近变化的查询结果，就像机器学习一样。其中一些甚至可能返回包含查询的同义词或出现在类似上下文中的单词.

2020-11-11 09:16:07 5719

原创如何推导高斯过程回归以及深层高斯过程详解

使用不同核函数的高斯过程高斯过程像所有其他机器学习模型一样，高斯过程是一个简单预测的数学模型。像神经网络一样，它可以用于连续问题和离散问题，但是其基础的一些假设使它不太实用。但是，过去5年左右的时间里，尽管没有多少人真正知道它们是什么，如何使用或为什么很重要，但该领域的研究却令人难以置信。像Secondmind这样的初创公司；像卡尔·拉斯穆森（Carl Rasmussen），尼尔·劳伦斯（Neil Lawrence）和戴维·杜文诺（David Duvenaud）这样的著名学者都花了大量时间研究方法和.

2020-11-10 09:08:53 11341

原创 DeOldify，这个开源的AI代码可以给你的黑白照片上色

DeOldify是一种技术，以彩色和恢复旧的黑白图像，甚至电影片段。它是由一个叫Jason Antic的人开发和更新的。这是目前最先进的黑白图像着色方法，而且所有的东西都是开源的。首先，让我们看看他是如何做到的。它使用了一种名为NoGAN的新型GAN训练方法，该方法是他自己开发的，用来解决在使用由一个鉴别器和一个生成器组成的正常对抗性网络架构进行训练时出现的主要问题。典型地，GAN训练同时训练鉴别器和生成器，生成器一开始是完全随机的，随着时间的推移，它会欺骗鉴别器，鉴别器试图辨别出图像是生成的还是真实的.

2020-11-09 09:03:13 6749 1

原创 5分钟理解RELU以及他在深度学习中的作用

神经网络和深度学习中的激活函数在激发隐藏节点以产生更理想的输出方面起着重要作用。激活函数的主要目的是将非线性特性引入模型。在人工神经网络中，给定一个输入或一组输入，节点的激活函数定义该节点的输出。可以将标准集成电路视为激活功能的控制器，根据输入的不同，激活功能可以是“ ON”或“ OFF”。Sigmoid和tanh是单调、可微的激活函数，是在RELU出现以前比较流行的激活函数。然而，随着时间的推移，这些函数会遭受饱和，这导致出现梯度消失的问题。解决这一问题的另一种和最流行的激活函数是直线修正单.

2020-11-08 09:18:26 7329

原创使用Pandas的resample函数处理时间序列数据的技巧

时间序列数据在数据科学项目中很常见。通常，可能会对将时序数据重新采样到要分析数据的频率或从数据中汲取更多见解的频率感兴趣。在本文中，我们将介绍一些使用Pandas resample（）函数对时间序列数据进行重采样的示例。我们将介绍以下常见问题，并应帮助您开始使用时序数据操作。下采样并执行聚合使用自定义基数进行下采样上采样和填充值一个实际的例子向下采样和执行聚合下采样是将一个时间序列数据集重新采样到一个更大的时间框架。例如，从几分钟到几小时，从几天到几年。结果的行数将减少，并且可以使用.

2020-11-07 08:46:02 23610 4

原创 FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍

自Transformers诞生以来，紧随其后的是BERT，在几乎所有与语言相关的任务中，无论是问题回答，情感分析，文本分类还是文本生成，都占据着NLP的主导地位。与RNN和LSTM消失的梯度问题（不影响长数据序列的学习）不同，Transformers在所有这些任务上的准确性更高。 RNN和LSTM不可扩展，因为它们必须考虑先前神经元的输出。现在，《Transformers》的主要问题是它们在训练和推理方面都需要大量计算。虽然可以通过使用预先训练的语言模型（由Google，Facebook和Open.

2020-11-06 09:02:29 5141

原创可变形卷积在视频学习中的应用:如何利用带有稀疏标记数据的视频帧

卷积层是卷积神经网络的基本层。虽然它在计算机视觉和深度学习中得到了广泛的应用，但也存在一些不足。例如，对于某些输入特征图，核权值是固定的，不能适应局部特征的变化，因此需要更多的核来建模复杂的特征图幅，这是多余的，效率不高。体积膨胀，由于输出转换的接受野始终是矩形的，作为层叠卷积的累积效应，接受野会越来越大，接受野中会包含一些与输出转换无关的背景。不相关的背景会给输出位移的训练带来噪声。为了克服上述问题，你想对传统的卷积层做一个小小的改变：内核可以适应局部特征的变化，接受场可以收敛到与输出对应的语义背.

2020-11-05 09:10:17 3254

deephub