2021年01月_deephub

原创使用深度学习进行图像去噪

图像去噪是研究人员几十年来试图解决的一个经典问题。在早期，研究人员使用滤波器器来减少图像中的噪声。它们曾经在噪音水平合理的图像中工作得相当好。然而，应用这些滤镜会使图像模糊。如果图像太过嘈杂，那么合成的图像会非常模糊，图像中的大部分关键细节都会丢失。使用深度学习架构会更好的解决这个问题。目前看深度学习远远超过了传统的去噪滤波器。在这篇文章中，我将使用一个案例来逐步解释几种方法，从问题的形成到实现最先进的深度学习模型，然后最终看到结果。内容摘要图像中的噪声是什么?问题表述机器学习问题提法

2021-01-31 10:48:57 23819 4

原创低成本的二值神经网络介绍以及它能代替全精度网络吗?

每年都会开发出更深的模型来执行各种任务，例如对象检测，图像分割等，这些任务始终能够击败最新模型。但是，人们越来越关注使模型更轻便，更高效，以便它们可以在边缘设备和移动设备上运行。这对于弥合机器学习的研究和生产价值之间的差距非常重要。减少深度神经网络的内存和计算成本的一种方法是二值神经网络的概念。二值神经网络的概念非常简单，其中权重和激活张量的每个值都使用+1和-1表示，以便它们可以以1字节而不是全精度存储（在1-中表示为0 位整数）。使用以下所示的符号函数将浮点值转换为二进制值-现在，使用阈值

2021-01-30 09:15:06 4679

原创使用GCP开发带有强化学习功能的Roguelike游戏

强化学习（RL）的许多应用都是专门针对将人工从训练循环中脱离而设计的。例如，OpenAI Gym [1]提供了一个训练RL模型以充当Atari游戏中的玩家的框架，许多问扎根都描述了将RL用于机器人技术。但是，一个通常讨论不足的领域是应用RL方法来改善人们的主观体验。为了演示这种类型应用，我开发了一个简单的游戏，叫做“Trials of the Forbidden Ice Palace” [2]。该游戏使用强化学习，通过为用户量身定制游戏难度来改善用户体验。游戏如何运作该游戏是传统的Rogueli

2021-01-29 09:02:17 5036 1

原创有比Pandas 更好的替代吗?对比Vaex, Dask, PySpark, Modin 和Julia

表格是存储数据的最典型方式，在Python环境中没有比Pandas更好的工具来操作数据表了。尽管Pandas具有广泛的能力，但它还是有局限性的。比如，如果数据集超过了内存的大小，就必须选择一种替代方法。但是，如果在内存合适的情况下放弃Pandas使用其他工具是否有意义呢？Pandas是一种方便的表格数据处理器，提供了用于加载，处理数据集并将其导出为多种输出格式的多种方法。 Pandas可以处理大量数据，但受到PC内存的限制。数据科学有一个黄金法则。如果数据能够完全载入内存（内存够大），请使用Pan

2021-01-28 09:49:52 7564

原创谷歌新语言模型Switch Transformer

在过去的三年中，基于transformer的语言模型(LMs)在自然语言处理(NLP)领域一直占据着主导地位。Transformer 通常是在大量非结构化文本上预先训练的巨大网络，它能够捕捉有用的语言属性。然后，我么可以对预先训练的模型进行微调，以适应各种各样的最终任务，如回答问题或机器翻译，通过微调即使是在少量的标记数据上也可以训练出可用的模型。Switch Transformer发布前，谷歌的T5模型一直是多个NLP基准上的记录保持者，但是最近被它自己的Switch Transformer超越。并非所

2021-01-27 09:48:27 6168

原创从Wide and Deep、DeepFM到DLRM，现代的推荐系统算法研究

深入研究Facebook和谷歌等公司建立业务的人工智能算法。2019年5月，Facebook开放了他们的一些推荐方法，并引入了DLRM(深度学习推荐模型)。这篇文章旨在解释DLRM和其他现代推荐方法是如何以及为什么能够如此出色地工作的，通过研究它们是如何从该领域以前的结果中衍生出来的，详细解释它们的内部工作原理和思路。基于AI的个性化广告已成为在线营销中的标准配置，而Facebook，Google，Amazon，Netflix等公司是在线营销之王，因为他们不仅采用了这种趋势，而且从根本上发明了这种趋势

2021-01-26 09:39:47 5278

原创不使用直方图的6个原因以及应该使用哪个图替代

直方图并非没有偏见。实际上，它们是武断的，可能会导致对数据的错误结论。如果你想可视化一个变量，最好选择一个不同的图。无论你是在与高管开会，还是在与数据狂人开会，有一件事是可以肯定的:总会看到一个直方图。直方图非常直观:任何人一眼就能理解它们。此外，它们是对现实的不偏不倚的反映，对吧?其实不是这样。直方图可能会误导人，并得出错误的结论——即使是简单的数据!在这篇文章中，我们将通过一些例子来解释为什么直方图不是可视化数据的最佳选择:它的显示太依赖装箱的数量。它太依赖于变量的最大值和最小值。它不能

2021-01-25 09:30:25 5199

原创 GANs是如何创造出高分辨率的图像的

本文主要介绍DCGAN的适应渐进式增长创建高分辨率图像的思路深度卷积生成对抗网络是2020年最精致的神经网络体系结构。生成模型可以追溯到60年代，但是Ian Goodfellow在2014年创造的GAN，使得生成模型跟那个广泛的使用，这对于深度学习的未来有着前所未有的价值。GAN知识要点生成器根据噪声向量重建样本，该样本应与训练分布不可区分生成器是主要的目标，一旦我们对它的结果满意，就可以丢弃鉴别器由于这两个神经网络都是可微的，我们可以使用它们的梯度来引导它们朝着正确的方向主要思路生成器和鉴.

2021-01-24 10:04:01 6240

原创使用Tensorflow模仿HearthArena炉石卡片排名算法

在这篇文章中，我将重新创造卡牌游戏《炉石传说》卡组制作工具的卡牌排名算法什么是《炉石传说》炉石传说-一个虚拟纸牌游戏对于那些不知道的人来说，《炉石传说》是一款策略纸牌游戏，其目标是创建一个包含30张纸牌的卡组并与对手对抗，将对手降至0命值的玩家将首先获胜。在竞技场游戏模式中，玩家一次抽30张牌，每次在3张牌中选择。在《炉石传说》中有许多获胜策略，玩家在决定选择哪张纸牌时需要考虑许多因素:魔法值——什么时候可以使用的纸牌是受你有多少魔法值的限制的，所以有一个魔法值是很重要的(让你可以打出每个回合需

2021-01-23 09:53:38 5080

原创使用Scikit-Learn pipeline 减少ML项目的代码量并提高可读性

在构建和部署机器学习模型时，最佳好的方法是使它们尽可能的成为端到端的工作，这意味着尝试将大多数与模型相关的数据转换分组到一个对象中。在ML世界中，采用pipeline的最简单方法是使用Scikit-learn。如果你不太了解它们，这篇文章就是为你准备的。我将通过一个简单的用例，首先尝试通过采用一个简单的机器学习工作流来解决这个问题，然后我将通过使用Scikit-Learn pipeline来解决这个问题，这样就能看出差异。pipelinepipeline允许你封装所有的预处理步骤，特性选择，扩展，特性

2021-01-22 09:12:55 4824

原创使用遮挡分析进行DNN模型的可解释性说明概述

深度神经网络的解释方法有很多，每种解释方法都有各自的优缺点。在大多数情况下，我们感兴趣的是局部解释方法，即对特定输入的网络输出的解释，因为DNNs往往过于复杂，无法进行全局解释(独立于输入)。一般而言，所有局部解释方法都有一个共同的目标：可靠地（即准确地）表示要解释的函数f（例如DNN），至少可以部分的解释他们的输入和输褚的关系。当然，这样的解释也必须是人类可以理解的才能有用。实现这一目标的最简单方法是为每个输入维度添加一个重要分数，也就是创建一个归属图。归因方法将模型输出的权重分配给给定输入的每个维度

2021-01-21 08:48:54 5271

原创用PyTorch和预训练的Transformers 创建问答系统

介绍问题回答是信息检索和自然语言处理（NLP）中的一项任务，该任务调查可以回答人类以自然语言提出的问题的程序。在“提取性问题解答”中，提供了一个上下文，以便模型可以引用该上下文并预测答案在段落中的位置。在本文中，我们将向您展示如何使用Huggingface Transformers库提供的预训练模型来实现问题解答。由于实现起来非常简单，因此您可以在数分钟内使您的问题回答系统快速运行！现在，让我们开始吧！目录步骤1:安装库步骤2:导入库步骤3:构建管道步骤4:定义上下文和问题步骤5:.

2021-01-20 08:38:54 10386 2

原创在向量化NumPy数组上进行移动窗口操作

今天很有可能你已经做了一些使用滑动窗口(也称为移动窗口)的事情，而你甚至不知道它。例如：许多编辑算法都是基于移动窗口的。在GIS中做地形分析的大多数地形栅格度量(坡度、坡向、山坡阴影等)都基于滑动窗口。很多情况下，对格式化为二维数组的数据进行分析时，都很有可能涉及到滑动窗口。滑动窗口操作非常普遍，非常有用。它们也很容易在Python中实现。学习如何实现移动窗口将把你的数据分析和争论技能提升到一个新的水平。什么是滑动窗?下面的例子显示了一个3×3(3×3)滑动窗口。用红色标注的数组元素是目标元素。这是滑

2021-01-19 09:07:04 6341

原创 5个简单的步骤使用Pytorch进行文本摘要总结

介绍文本摘要是自然语言处理(NLP)的一项任务，其目的是生成源文本的简明摘要。不像摘录摘要，摘要不仅仅简单地从源文本复制重要的短语，还要提出新的相关短语，这可以被视为释义。摘要在不同的领域产生了大量的应用，从书籍和文献，科学和研发，金融研究和法律文件分析。到目前为止，对抽象摘要最有效的方法是在摘要数据集上使用经过微调的transformer模型。在本文中，我们将演示如何在几个简单步骤中使用功能强大的模型轻松地总结文本。我们将要使用的模型已经经过了预先训练，所以不需要额外的训练:)让我们开始吧!步骤.

2021-01-18 08:40:48 7169 1

原创泊松分布

一个故事：你已经做了10年的自由职业者了。到目前为止，你的平均年收入约为8万美元。今年，你觉得自己陷入了困境，决定要达到6位数。要做到这一点，你需要先计算这一令人兴奋的成就发生的概率，但你不知道怎么做。在世界上有许多场景，其中存在某个随机事件的已知概率，企业希望发现该事件在未来发生的概率大于或小于这个概率。例如，已经知道自己平均销售额的零售商所有者会试图猜测他们在黑色星期五或双十一等特殊日子能多赚多少钱。这将帮助他们储存更多的产品，并相应地管理他们的员工。在这篇文章中，我们将讨论用于模拟上述情况的泊松分

2021-01-17 09:24:57 9277

原创用Pandas和Streamlit对时间序列数据集进行可视化过滤

用Pandas和Streamlit对时间序列数据集进行可视化过滤介绍我们每天处理的数据最多的类型可能是时间序列数据。基本上，使用日期，时间或两者同时索引的任何内容都可以视为时间序列数据集。在我们工作中，可能经常需要使用日期和时间本身来过滤时间序列数据。根据任何其他形式的索引过滤dataframe是一件相当麻烦的任务。尤其是当日期和时间在不同的列中时。幸运的是，我们有Pandas和Streamlit在这方面为我们提供帮助，并且可以方便的创建和可视化交互式日期时间过滤器。我认为我们大多数人对Pandas

2021-01-16 09:45:10 6174 1

原创图解Transformer — Attention Is All You Need

2017年谷歌大脑在《注意力是你所需要的一切》一文中解释了Transformer 。本文是随着自然语言处理领域的发展而来的。许多最先进的NLP模型都是以Transformer 为基础建立的。Transformers是人们认为最复杂和无法理解的话题之一。在这篇文章中，我将给出关于Transformer理论知识，我希望在这篇文章的结尾，你将能够了解关于变压器实际工作原理。注：以下部份中为了方便将Transformer翻译为变压器Attention Is All You Need变压器基本上是一种机器学习

2021-01-15 08:49:56 4775

原创数据相关的4种主要角色概述

“我们每天产生的数据量真是令人难以置信。以我们目前的速度，每天会产生2.5万亿字节的数据，但这个速度只会随着物联网(IoT)的发展而加快。——我们每天会创建多少数据?每个人都应该知道的令人振奋的数据，福布斯杂志，2018年早在2006年，英国数学家Clive Humby就将其称为“新石油”，15年过去了，现在人们似乎真的开始见证数据对商业的影响，现在每个人都想从中分一杯羹。与石油不同，数据不会被“用完”，因为数据可以无限更新。相比之下，我们认为这两者在某种意义上是相似的，就像石油一样，原始数据本身并没有

2021-01-14 08:58:48 5368

原创使用Plotly创建带有回归趋势线的时间序列可视化图表

使用Plotly创建带有回归趋势线的时间序列可视化图表利用Pandas Groupby()、for loops和Plotly Scatter Graph对象结合Plotly Express趋势线创建带有回归趋势线的时间序列图。数据为了说明这是如何工作的，让我们假设我们有一个简单的数据集，它有一个datetime列和几个其他分类列。您感兴趣的是某一列(“类型”)在一段时间内(“日期”)的汇总计数。列可以是数字、类别或布尔值，但是这没关系。注意:初始部分包含用于上下文和显示常见错误的代码，对于现成的解

2021-01-13 09:03:00 7156 1

原创 Pyspark处理数据中带有列分隔符的数据集

2021-01-12 08:23:21 5420

原创股票市场交易中的强化学习

在深度学习的世界中，无论您的模型多么先进，没有充分对业务充分理解和干净的数据都不会走得太远。这个事实在金融领域尤其如此，在我们的数据集中，只存在股票的开盘价，最高价，最低价，调整后的收盘价和交易量的5个变量。在第一幅图中，不难发现这些原始数据值不足以训练机器学习模型。高度相关的变量乍看起来似乎很有希望，但是相关系数极高的缺点是实际上没有那么多的信息。数据集基本上有五个数字，它们对模型说的完全相同，这使得模型很难理解允许机器学习交易者获利的市场波动的复杂性。数据的相关性显示在下面的分散矩阵内，其中对角线是

2021-01-11 08:48:06 7080 2

原创使用Python过滤相似的文本的简单方法

问题假设你在存档中有成千上万的文档，其中许多是彼此重复的，即使文档的内容相同，标题不同。现在想象一下，现在老板要求你通过删除不必要的重复文档来释放一些空间。问题是：如何过滤标题足够相似的文本，以使内容可能相同？接下来，如何实现此目标，以便在完成操作时不会删除过多的文档，而保留一组唯一的文档？让我们用一些代码使它更清楚：titles = [ "End of Year Review 2020", "2020 End of Year", "January Sales Proje

2021-01-10 09:10:56 7536 3

原创提高数据科学家讲故事能力的5个小技巧

学习如何利用正确的工具成为一个有效的讲故事者讲故事已经存在很久了。它帮助人们更好地理解发生在他们周围和之前的事情。人们不仅用它来吸引面前的观众的注意力，也吸引追随他们的人。讲故事是一门艺术。随着时间的推移，讲故事的技巧、方法和工具发生了变化，但主要概念和目标保持不变，即有效地吸引你的观众，使他们能够真正地与你所说的联系起来。作为数据科学家，我们也被教导要善于讲故事。原因是我们经常需要向不同的利益相关者展示我们的工作。因为他们来自不同的背景，所以我们必须相应地改变我们的语气。但在任何情况下，你的故事都

2021-01-09 08:45:15 4655

原创单变量和多变量对基因表达式的预测能力对比

在这篇文章中，我们将比较LASSO、PLS、Random Forest等多变量模型与单变量模型的预测能力，如著名的差异基因表达工具DESeq2以及传统的Mann-Whitney U检验和Spearman相关。使用骨骼肌RNAseq基因表达数据集，我们将展示使用多变量模型构建的预测得分，以优于单变量特征选择模型。骨骼肌RNAseq基因表达数据在这里，我们将量化几种特征选择方法的预测能力:a)单变量(逐个)特征选择，b)多变量(一起)特征选择。出于演示目的，我们将使用来自GTEX人体组织基因表达联盟的骨骼.

2021-01-08 08:59:25 5414 1

原创 OpenAI的新模型DALL·E：可以从文字说明生成图像

OpenAI成功地训练了一个能够从文字标题生成图像的网络。它非常类似于GPT-3和图像GPT，并产生惊人的结果。DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本，使用了120亿个参数，而不是1750亿个参数。但它已经经过专门训练，可以从文本描述生成图像，使用的是文本-图像对的数据集，而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像，就像GPT-3创建网站和故事一样。DALL-E与GPT-3非常相似，它也是一个transformer

2021-01-07 08:40:52 21555 2

原创 2012到2020主要的CNN架构总结

卷积神经网络（CNN或ConvNet）是理解图像内容的最佳学习算法之一，并且在图像分割，分类，检测和检索相关任务中表现出出色的表现。有许多公司，例如Google，Microsoft，AT＆T，NEC和Facebook，已经建立了活跃的研究小组来探索CNN的新架构。什么是CNN？CNN被设计用于图像识别任务，最初是用于手写数字识别的挑战（Fukushima 1980，LeCun 1989）。 CNN的基本设计目标是创建一个网络，其中网络早期层的神经元将提取局部视觉特征，而后期层的神经元将这些特征组合起.

2021-01-06 09:07:35 5721

原创使用用测试时数据增强（TTA）提高预测结果

数据增强是一种用于提高计算机视觉问题神经网络模型的性能和减少泛化误差的技术。当使用拟合模型进行预测时，也可以应用图像数据增强技术，以允许模型对测试数据集中每幅图像的多个不同版本进行预测。对增强图像的预测可以取平均值，从而获得更好的预测性能。在本文章中，您将发现测试时的增强，以改进用于图像分类任务的模型的性能。完成本文章后，您将知道:TTA是数据增广技术的应用，通常用于在训练中进行预测。如何在Keras中从头开始实现测试时增强。如何使用TTA来提高卷积神经网络模型在标准图像分类任务中的性能。测试

2021-01-05 09:23:24 14530 3

原创使用贝叶斯统计来进行更好更直观的A/B测试

为什么要使用贝叶斯A / B测试代替传统方法A / B测试是当今技术，市场营销和研究中最有用的统计技术之一。它的价值在于A / B测试可让您确定因果关系，而大多数分析仅揭示相关性（即古老的格言“相关性而非因果关系”）。尽管A / B测试功能强大且流行程度很高，但绝大多数A/B测试都遵循一种基于频率主义统计学派的t测试的单一方法。本文将介绍A/B测试的另一种方法。这种替代方法使用了贝叶斯统计学派，本文将演示这种方法如何比传统的、频繁的方法返回更直观的结果。传统的、频繁主义的方法使用假设作为A/B测试的框架

2021-01-04 08:56:57 6206

原创使用Fastai中的学习率查找器和渐进式调整大小提高训练效率

当我第一次开始使用fastai时，我非常兴奋地建立并训练了一个深度学习模型，它可以在很短的时间内产生惊人的结果。我将在本文的最后链接我以前的文章，在这些文章中我用fastai记录了我的学习过程。????获得数据我们需要这些数据来开始。它来自于Kaggle的石头剪刀布数据集。这个任务变成了一个多类图像分类问题，有三个类(每个类都有训练，验证，测试文件夹)包含大小为300x300的RGB颜色图像。导入fasti vision的所有函数并设置path变量。from fastai.vision.all i

2021-01-03 09:43:37 5214

原创 2021年成为数据科学家最需要学习的7项技能

介绍这七个最推荐的数据科学的技能是从许多业内从@谷歌主管工程@ NVIDIA的高级主管,和数据科学与工程的副总裁@ Wealthsimple等业内从业员讨论,得出的结论，希望对你有帮助虽然这篇文章可能更多的是轶事，但我觉得这篇文章分享了一个有价值的观点。我特别不是指从搜集来的招聘信息中获取的数据，因为从我的经验来看，职位描述和实际工作之间似乎有很大的脱节。您可能会注意到，这七个技能中的任何一个都与机器学习或深度学习无关，这不是一个错误。当前，对在建模前和建模后阶段使用的技能有更高的要求。因此，最受推.

2021-01-02 08:37:56 5108

原创 2020年人工智能论文总结

尽管今年世界上发生了这么多事情，我们还是有机会看到很多惊人的研究成果。特别是在人工智能领域。此外，今年还强调了许多重要的方面，比如伦理方面、重要的偏见等等。人工智能以及我们对人类大脑及其与人工智能的联系的理解在不断发展，在不久的将来显示出有前途的应用。以下是本年度最有趣的研究论文，如果你错过了其中的任何一篇的话。简而言之，它基本上是一个根据发布日期列出的人工智能和数据科学最新突破的列表，配有清晰的视频解释、更深入的文章链接和代码(如果适用的话)。本文最后列出了每篇论文的完整参考文献。YOLOv4: .

2021-01-01 10:03:21 9161 1

deephub