2020年12月_deephub

原创理解高斯混合模型中期望最大化的M-Step

在本篇文章中将解释高斯混合模型（GMM）的关键部分背后的数学原理，即期望最大化（EM），以及如何将这些概念转换为Python。这个故事的重点是EM或M-Step。注意：这不是有关端到端GMM算法的全面说明。要进行更深入的研究，请参阅我们以前翻译的文章。期望最大化GMM中有一系列步骤，通常称为“期望最大化”，简称“ EM”。要解释如何理解EM数学，请首先考虑您可能要处理的模型。样本由图形上的点表示。这些点形成一些不同的斑点。每个斑点都有一个中心，每个点都与每个斑点的中心相距一定距离。给定GMM

2020-12-31 08:50:02 5359

原创用于多关系数据的图神经网络R-GCNs

本文描述如何扩展图神经网络(GNNs)的最简单公式，以编码知识图谱(KGs)等多关系数据的结构。这篇文章包括4个主要部分:介绍了描述KGs特性的多关系数据的核心思想;GNN体系结构中包含的标准组件摘要;gnn最简单公式的描述，称为图卷积网络(GCNs);讨论如何以关系图卷积网络(R-GCN)的形式扩展GCN层，对多关系数据进行编码。知识图作为多关系数据基本图结构包括用于连接节点的无向，无类型和唯一边。例如，在哲学领域，我们可以定义两个由“苏格拉底”和“柏拉图”实体表示的节点之间的链接。.

2020-12-30 09:23:34 5404

原创使用遗传交叉算子进行过采样处理数据不平衡

交叉/重组过采样为数据集增加了新特征，并且在分类指标，SMOTE和随机过采样方面得分很高除了随机过采样，SMOTE及其变体之外，还有许多方法可以对不平衡数据进行过采样。在使用scikit-learn的make_classification默认设置生成的分类数据集中，使用交叉操作生成的样本在最相关的指标上胜过SMOTE和随机过采样。本篇文章的目录如下介绍数据准备随机过采样和SMOTE交叉过采样绩效指标评估结论介绍我们中的许多人都会遇到处于使用不平衡数据集的预测模型的情况。最流行的处

2020-12-29 09:12:29 5335 1

原创 NumPy中的广播：对不同形状的数组进行操作

NumPy是用于Python的科学计算库。它是数据科学领域中许多其他库（例如Pandas）的基础。在机器学习领域，无论原始数据采用哪种格式，都必须将其转换为数字数组以进行计算和分析。因此，需要对阵列进行快速，鲁棒和准确的计算，以对数据执行有效的操作。NumPy是科学计算的主要库，因为它提供了我们刚刚提到的功能。在本文中，我们重点介绍正在广播的NumPy的特定类型的操作。广播描述了在算术运算期间如何处理具有不同形状的数组。我们将通过示例来理解和练习广播的细节。我们首先需要提到数组的一些结构特性

2020-12-28 08:42:14 5408

原创使用TensorFlow和深度混合学习进行时间序列预测

在本文中，我们将看到深度混合学习如何应用于时间序列数据，以及它是否与图像数据一样有效。在这篇文章中，我将使用Kaggle的太阳黑子数据。如上所述，数据可以很容易地从GitHub项目TimeSeries-Using-TensorFlow下载。我鼓励大家使用谷歌协作笔记本，因为所需的模块已经安装好了，基础设施也准备好了。现在，让我们开始吧!下载并加载数据数据下载使用只需要一个简单的命令-!wget — no-check-certificate https://raw.githubusercontent.

2020-12-27 10:01:49 5373

原创 Pytorch中的分布式神经网络训练

随着深度学习的多项进步，复杂的网络（例如大型transformer 网络，更广更深的Resnet等）已经发展起来，从而需要了更大的内存空间。经常，在训练这些网络时，深度学习从业人员需要使用多个GPU来有效地训练它们。在本文中，我将向您介绍如何使用PyTorch在GPU集群上设置分布式神经网络训练。通常，分布式训练会在有一下两种情况。在GPU之间拆分模型：如果模型太大而无法容纳在单个GPU的内存中，则需要在不同GPU之间拆分模型的各个部分。跨GPU进行批量拆分数据。当mini-batch太大而无

2020-12-26 09:46:10 10396 1

原创在NLP中结合文本和数字特征进行机器学习

应用于自然语言处理的机器学习数据通常包含文本和数字输入。例如，当您通过twitter或新闻构建一个模型来预测产品未来的销售时，在考虑文本的同时考虑过去的销售数据、访问者数量、市场趋势等将会更有效。您不会仅仅根据新闻情绪来预测股价的波动，而是会利用它来补充基于经济指标和历史价格的模型。这篇文章展示了如何在scikit-learn（对于Tfidf）和pytorch（对于LSTM / BERT）中组合文本输入和数字输入。scikit-learn(例如用于Tfidf)当你有一个包含数字字段和文本的训练data

2020-12-25 09:04:52 8028 2

原创 Jupyter Notebooks嵌入Excel并使用Python替代VBA宏

以前，Excel和Python Jupyter Notebook之间我们只能选择一个。但是现在随着PyXLL-Jupyter软件包的推出，可以将两者一起使用。在本文中，我将向你展示如何设置在Excel中运行的Jupyter Notebook。在这两者之间共享数据，甚至可以从Excel工作簿调用Jupyter笔记本中编写的Python函数！开始首先，要在Excel中运行Python代码，你需要使用PyXLL包。 PyXLL使我们可以将Python集成到Excel中，并使用Python代替VBA。 .

2020-12-24 09:38:36 22026 15

原创 TensorFlow Quantum：建立在量子架构上工作的机器学习模型

TensorFlow Quantum是一个开源堆栈，向我们展示了量子和机器学习的未来可能会是什么样子量子计算和人工智能(AI)的交叉有望成为整个科技史上最引人注目的工作之一。量子计算的出现可能会迫使我们重新设想几乎所有现有的计算范式，人工智能也不例外。然而，量子计算机的计算能力也有可能加速人工智能的许多领域，这些领域目前仍不实用。人工智能和量子计算协同工作的第一步是将机器学习模型重新构想为量子架构。最近，谷歌开源TensorFlow Quantum框架，用于构建量子机器学习模型。TensorFlow

2020-12-23 08:49:49 7957 2

原创利用VAE LSTM生成时间序列

用生成式深度学习模型填充时间序列随着时间的推移，用于生成的深度学习模型的使用正变得越来越流行。这些类型的模型被称为生成算法，在研究一个参考群体后被用于在各个领域生成新的和不可见的样本。这些技术最著名的应用是在计算机视觉领域，各种应用程序可以生成以前不存在的图像。生成模型的效用是多种多样的和领域相关的。它们可以用于以快速的方式创建新实例，而手动创建新实例的成本更高，或者也不可能。它们可以模拟一些未被记录或遗漏的情况。它们可以用来生成不同的副本，这些副本与原始副本不同，具有一定程度的噪音，从而拥有足够的样

2020-12-22 09:15:11 12506 3

原创 scikit-learn中的自动模型选择和复合特征空间

使用scikit-learn管道自动组合文本和数字数据有时，机器学习模型的可能配置即使没有上千种，也有数百种，这使得手工找到最佳配置的可能性变得不可能，因此自动化是必不可少的。在处理复合特征空间时尤其如此，在复合特征空间中，我们希望对数据集中的不同特征应用不同的转换。一个很好的例子是将文本文档与数字数据相结合，然而，在scikit-learn中，我找不到关于如何自动建模这种类型的特征空间的信息。使用scikit-learn管道可以更有效地工作，而不是手动将文本转换成词袋，然后再手动添加一些数字列。这篇文

2020-12-21 08:53:58 4765

原创如何使用PCA去除数据集中的多重共线性?

多重共线性是指自变量彼此相关的一种情况。当你拟合模型并解释结果时，多重共线性可能会导致问题。数据集的变量应该是相互独立的，以避免出现多重共线性问题。在本文中，您可以阅读为什么多重共线性是一个问题，以及如何使用主成分分析(PCA)消除数据集中的多重共线性。为什么多重共线性是一个潜在的问题?多重共线性高度影响与问题相关的方差，也会影响模型的解释，因为它削弱了自变量的统计显著性。对于一个数据集，如果一些自变量彼此高度独立，就会导致多重共线性。任何一个特征的微小变化都可能在很大程度上影响模型的性能。换句话.

2020-12-20 09:38:01 9227 1

原创自动驾驶：Lidar 3D传感器点云数据和2D图像数据的融合标注

自动驾驶汽车的发展已经见证了硬件传感器记录感官数据的容量和准确度的发展。传感器的数量增加了，新一代传感器正在记录更高的分辨率和更准确的测量结果。在本文中，我们将探讨传感器融合如何在涉及环环相扣的数据标记过程中实现更高程度的自动化。所有自动驾驶汽车(AV)都使用一组硬件传感器来识别周围的物理环境。硬件传感器包括摄像机或一组摄像机，这些摄像机战略性地放置在车辆车身周围，以捕获2D视觉数据，以及一些安装在车辆顶部的雷达，以捕获3D位置数据。有一些像特斯拉这样的供应商认为，视觉数据足以让汽车识别其环境。其他供应

2020-12-19 09:22:36 9506

原创在PyTorch中使用DeepLabv3进行语义分割的迁移学习

当我在使用深度学习进行图像语义分割并想使用PyTorch在DeepLabv3[1]上运行一些实验时，我找不到任何在线教程。并且torchvision不仅没有提供分割数据集，而且也没有关于DeepLabv3类内部结构的详细解释。然而，我是通过自己的研究进行了现有模型的迁移学习，我想分享这个过程，这样可能会对你们有帮助。在本文中，我将介绍如何使用预先训练的语义分割DeepLabv3模型，通过使用迁移学习在PyTorch中进行道路裂缝检测。同样的过程也可以应用于调整自定义数据集的网络。介绍让我们首先简要介绍

2020-12-18 09:00:45 8749 2

原创如何在Windows上安装和渲染OpenAI-Gym

如何在Windows上安装和渲染OpenAI-Gym在Windows上渲染OpenAI-Gym的指南OpenAI Gym是学习和开发强化学习算法的好地方。它提供了许多有趣的游戏（所谓的“环境”），你可以将自己的策略用于测试。例如，它有一些简单的游戏，例如在小推车上平衡垂直杆（“ CartPole-v1”），将钟摆摆到直立位置（“ Pendulum-v0”），以及一些经典的电子游戏，例如Space Invader 和Pin Ball。然而，gym是设计在Linux上运行的。尽管它可以使用Conda

2020-12-17 08:35:43 5906

原创如何通过抽样分布估计你的模型的不确定性

当开始一个新的数据科学项目时，首要任务之一将是获取数据，以便能够评估项目的范围，并开始了解可以实现的目标。如果条件允许拥有一个大的的数据集来进行研究是非常好的情况，然而更多的时候，你将获得一个小的数据集来构建一个基线模型，然后，随着时间的推移，你将收集更多的数据，重新训练你的模型，并改进它。这种情况在加入一家传统上不是“数据驱动”，而是刚刚开始发现数据科学能为他们做什么的公司时很常见。虽然我们知道使用小数据集会导致模型在训练期间快速过拟合，但还有一个经常很少讨论的问题，即模型性能的不确定性问题。在这篇文章

2020-12-16 08:46:51 5545

原创 CNN是否达到了人类视觉的特性？基于分割片段的CNN分类可解释性研究

近年来，对深度神经网络可解释性和可解释性方法的研究和探索已经取得了很大进展。目前，人工智能正被越来越多的关键任务部门所接受。但是应用在这些关键性人物的深度学习或基于人工智能的系统，哪怕是最轻微的计算错误，都可能导致信任丧失、金钱损失、社会经济稳定甚至人命损失。我们迫切需要打破深度学习模型的黑盒子特性，让更大的用户，尤其是普通用户更容易理解它们。因为自从深度学习的发展以来，对模型可理解性的需求并不是模型本身要解决的的问题。还有一个关于AI公平性的更普遍的研究正在进行，但是在这篇文章中，我们不会深入研究这个研

2020-12-15 09:13:02 5018

原创核密度估计和非参数回归

你可能听说过核密度估计(KDE：kernel density estimation)或非参数回归（non-parametric regression）。你甚至可能在不知不觉的情况下使用它。比如在Python中使用seaborn或plotly时，distplot就是这样，在默认情况下都会使用核密度估计器。但是这些大概是什么意思呢?也许你处理了一个回归问题，却发现线性回归不能很好地工作，因为特性和标签之间的依赖似乎是非线性的。在这里，核回归（kernel regression）可能是一种解决方案。在这篇文章

2020-12-14 09:06:45 12023 1

原创 Sharded:在相同显存的情况下使pytorch模型的大小参数加倍

Sharded是一项新技术，它可以帮助您节省超过60%的内存，并将模型放大两倍。深度学习模型已被证明可以通过增加数据和参数来改善。即使使用175B参数的Open AI最新GPT-3模型，随着参数数量的增加，我们仍未看到模型达到平稳状态。对于某些领域，例如NLP，最主要的模型是需要大量GPU内存的Transformer。对于真实模型，它们只是不适合存储在内存中。微软的Zero论文介绍了称为Sharded的最新技术，他们开发了一种技术，可以使我们接近1万亿个参数。在本文中，我将给出sharded工作

2020-12-13 10:03:16 5816

原创使用Flow forecast进行时间序列预测和分类的迁移学习介绍

ImageNet首次发表于2009年，在接下来的四年里，它成为了大多数计算机视觉模型的基础。到目前为止，无论您是在训练一个模型来检测肺炎还是对汽车模型进行分类，您都可能从在ImageNet或其他大型(和一般图像)数据集上预先训练的模型开始。最近的一些论文，如ELMO和BERT(2018)利用转移学习来有效地提高几个NLP任务的表现。这些模型创建了有效的与上下文相关的单词表示。然后，这些表示可以用于各种任务，如回答问题、命名实体识别等。此外，在宏观层面上，转移学习为所有数据有限的领域的进展铺平了道路。通.

2020-12-12 09:14:43 5628 1

原创利用遗传算法优化GANs

GANs是在训练阶段最需要计算的密集型模型之一，因为它相当于同时训练两个神经网络。对于我的普通电脑来说，把gan训练到收敛是非常困难的。遗传算法是根据大自然中生物体进化规律而设计提出的，是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。在本片文章中，我们尝试使用遗传算法来对训练GANs进行优化，我们的训练模型是生成手写数字。什么是遗传算法?遗传算法是一种学习算法，它利用交叉两个好的神经网络的权.

2020-12-11 09:12:17 6062 4

原创 Julia中的数据分析入门

有关Julia中数据分析入门的分步介绍。Julia的入门非常简单，尤其是当您熟悉Python时。在本篇文章中，我们将使用约翰霍普金斯大学系统科学与工程中心在其GitHub存储库中提供的Covid-19数据（https://github.com/CSSEGISandData/）。入门对于我们的数据分析，我们将会使用一些软件包来简化操作：CSV，DataFrame，日期和可视化。只需输入软件包名称，即可开始使用。using CSVusing DataFramesusing Datesusing

2020-12-10 08:49:30 5411 1

原创 5分钟内了解Canny边缘检测

边缘检测是图像处理的主要组成部分。尽管基于卷积神经网络等基于深度学习的技术可以执行非常复杂的边缘检测（即具有变化的曲率，噪声，颜色等的边缘），但在某些情况下，经典的边缘检测方法仍然具有很高的意义！例如，如果已知数据是简单且可预测的；与CNN相比，Canny边界检测可以立即使用，而CNN的实现通常较为复杂。边缘检测的基本知识大多数经典的边缘检测算法都是基于一阶导数的概念。在下图中，我们可以看到一个理论边缘轮廓，y轴是像素强度，x轴是图像中的物理位置。在图像的边缘位置，有一个从低强度到高强度的快速过.

2020-12-09 08:54:17 3799

原创用于视频回归任务的长期循环卷积网络

基本概念通过深度学习进行视频处理是一个非常复杂的领域，因为它需要处理空间和时间两个方面。为了总结现代比较流行的方法是什么，在这篇文章中我们将对视频回归任务的深度学习方法进行一些研究。处理视频意味着处理图像，所以这里需要cnn。但是，有不同的方法来处理时态组件。我试着概括出主要的几点:现有的方法1、只使用CNN的回归斯坦福大学的一篇非常有趣的论文(http://vision.stanford.edu/pdf/karpathy14.pdf)讨论了视频分类任务中可能遇到的挑战，并提供了处理这些挑战的.

2020-12-08 08:52:41 3888 2

原创 NeuralProphet：基于神经网络的时间序列建模库

NeuralProphet是一个python库，用于基于神经网络对时间序列数据进行建模。它建立在PyTorch之上，并受到Facebook Prophet和AR-Net库的极大启发。NeuralProphet 和 Prophet对比从库名称中，您可能会问Facebook的Prophet库和NeuralProphet之间的主要区别是什么。根据NeuralProphet的文档，增加的功能是[1]：使用PyTorch的Gradient Descent进行优化，使建模过程比Prophet快得多使用AR

2020-12-07 09:26:00 10540 2

原创如何选择最佳的最近邻算法

介绍一种通过数据驱动的方法，在自定义数据集上选择最快，最准确的ANN算法人工神经网络背景KNN是我们最常见的聚类算法，但是因为神经网络技术的发展出现了很多神经网络架构的聚类算法，例如一种称为HNSW的ANN算法与sklearn的KNN相比，具有380倍的速度，同时提供了99.3％的相同结果。为了测试更多的算法，我们整理了几种ANN算法，例如Spotify’s ANNOYGoogle’s ScaNNFacebook’s FaissHNSW（Hierarchical Navigable Sm

2020-12-06 09:34:08 3592

原创使用LSTM深度学习模型进行温度的时间序列单步和多步预测

本文的目的是提供代码示例，并解释使用python和TensorFlow建模时间序列数据的思路。本文展示了如何进行多步预测并在模型中使用多个特征。本文的简单版本是，使用过去48小时的数据和对未来1小时的预测(一步)，我获得了温度误差的平均绝对误差0.48(中值0.34)度。利用过去168小时的数据并提前24小时进行预测，平均绝对误差为摄氏温度1.69度(中值1.27)。所使用的特征是过去每小时的温度数据、每日及每年的循环信号、气压及风速。使用来自https://openweathermap.org/

2020-12-05 09:39:46 12063 5

原创使用Seaborn和Pandas进行相关性分析和可视化

数据集可以讲述很多故事。要想了解这些故事的展开，最好的方法就是从检查变量之间的相关性开始。在研究数据集时，我首先执行的任务之一是查看哪些变量具有相关性。这让我更好地理解我正在使用的数据。这也是培养对数据的兴趣和建立一些初始问题来尝试回答的好方法。简单地说，相关性是非常重要的。Python的最大好处就库多，有很多库已经为我们提供了快速有效地查看相关性所需的工具。让我们简要地看看什么是相关性，以及如何使用热图在数据集中找到强相关性。什么是相关性？相关性是一种确定数据集中的两个变量是否以任何方式关联的方法.

2020-12-04 09:11:38 7955 2

原创 t-SNE：可视化效果最好的降维算法

降维1D，2D和3D数据可以可视化。但是在数据科学领域并不总是能够处理一个小于或等于3维的数据集，我们肯定会遇到使用高维数据的情况。对于数据科学专业人员来说，有必要对工作数据进行可视化和深入了解，以便更好地完成工作，我们可以使用降维技术降维技术的另一个最受欢迎的用例是在训练ML模型时降低计算复杂度。通过使用降维技术，数据集的大小已经缩小，与此同时，有关原始数据的信息也已应用于低维数据。因此，机器学习算法从输入数据集中学习既简单又省时。PCA-主成分分析是降维领域最主要的算法。它最初是由皮尔逊（Pear

2020-12-03 09:01:42 10741 2

原创使用LSTM-GAN为歌词谱曲

在本文中，我将首先介绍基于AI的音乐生成的最新发展，然后介绍我创建的系统并讨论其组成，包括Yi Yu等人的“Lyrics-to-Melody” AI模型等。。 [6]和Google的Music Transformer模型[7]。然后，我将演示一个示例，该示例从(Robert Frost)的诗歌中生成歌曲，并介绍其他生成的歌曲的集合。背景在过去的五个月中，我一直在研究如何将人工智能（AI）和机器学习（ML）用于创新活动。尽管最先进的人工智能模型可以生成优秀的图片和文字，但到目前为止，人工智能模型在作

2020-12-02 09:06:59 4853 1

原创 5分钟介绍各种类型的人工智能技术

人工智能是一个广泛的术语，涵盖了许多技术，所有这些技术使计算机能够显示类似于我们人类的某种程度的智能。通用AI人工智能最流行的用途是在许多不同任务上类似于超人的机器人。他们可以战斗，飞行，并可以就几乎任何主题进行深入的对话。电影中有很多机器人，有好有坏，例如Vision，Wall-E，Terminator，Ultron等。尽管这是AI研究的终极目标，但我们目前的技术离达到AI水平还很遥远，我们称之为通用AI。Narrow AI 窄人工智能相反，我们今天拥有的AI是称为Narrow AI的人.

2020-12-01 09:25:28 6885 1

deephub