2020年08月_deephub

原创 10种图算法直观可视化解释

快速介绍10个基本的图算法，并举例和可视化图已经成为一种强大的建模和捕获真实场景中的数据的手段，比如社交媒体网络、网页和链接，以及GPS中的位置和路线。如果您有一组相互关联的对象，那么您可以使用图来表示它们。在这篇文章中，我将简要地解释10个对分析和应用非常有用的基本图形算法。首先，让我们介绍图。什么是图?图由一组有限的顶点或节点和一组连接这些顶点的边组成。如果两个顶点通过同一条边互相连接，则称它们为邻接。下面给出了一些与图相关的基本定义。您可以参考图1中的示例。阶Order:图中顶点的数

2020-08-31 09:23:04 11869 2

原创推理(Inference)与预测(Prediction)

在机器学习的背景下，很多人似乎混淆了这两个术语。这篇文章将试图澄清我们所说的这两个词是什么意思，每一个词在哪里有用，以及它们是如何应用的。在这里，我将举几个例子来直观地理解两者之间的区别。推理和预测这两个术语都描述了我们在监督下从数据中学习的任务，以便找到一个描述自变量和结果之间关系的模型。然而，当涉及到结果模型的使用时，推断和预测会出现分歧：推理：使用模型了解数据生成过程。预测：使用模型预测新数据点的结果。推理(Inference)你观察后院的草。它是湿的。你观察天空。天气多云。你推断已经下雨

2020-08-30 08:36:50 14048

原创 PandaSQL：一个让你能够通过SQL语句进行pandas的操作的python包

Pandas是近年来最好的数据操作库之一。它允许切片、分组、连接和执行任意数据转换。如果你熟练的使用SQL,那么这篇文章将介绍一种更直接、简单的使用Pandas处理大多数数据操作案例。假设你对SQL非常的熟悉，或者你想有更可读的代码。或者您只是想在dataframe上运行一个特殊的SQL查询。或者，也许你来自R，想要一个sqldf的替代品。这篇文章将介绍一种在pandas的dataframe中使用SQL的python包，并且使用一个不等链接的查询操作来介绍PandasSQL的使用方法。不等连接(No

2020-08-29 12:55:16 8540 1

原创 Quickprop介绍：一个加速梯度下降的学习方法

由于80年代/ 90年代的普通反向传播算法收敛缓慢，Scott Fahlman发明了一种名为Quickprop[1]的学习算法，它大致基于牛顿法。他的简单想法在诸如“N-M-N编码器”任务这样的问题域中优于反向传播(有各种调整)，即训练一个具有N个输入、M个隐藏单位和N个输出的de-/ Encoder网络。Quickprop的方法之一是寻找特定领域的最佳学习率，或者更确切地说:适当地动态调整学习率的算法。在本文中，我们将研究Quickprop背后的简单数学思想。我们将实现基本的算法和一些改进。为了跟随

2020-08-28 09:08:27 5133

原创你可能不知道的pandas的5个基本技巧

如何用pandas处理大数据学习“between”、“reindex”等功能。这5个pandas的功能是非常有用的，但有时候却被人忽略between 函数多年来我一直在SQL中使用“between”函数，但直到最近才在pandas中发现它。假设我们有一个带有价格的DataFrame，我们想要过滤2到4之间的价格。df = pd.DataFrame({'price': [1.99, 3, 5, 0.5, 3.5, 5.5, 3.9]})使用between功能，您可以减少此过滤器:df[(df

2020-08-27 10:13:37 5524

原创机器学习中的音频特征：理解Mel频谱图

如果你像我一样，试着理解mel的光谱图并不是一件容易的事。你读了一篇文章，却被引出了另一篇，又一篇，又一篇，没完没了。我希望这篇简短的文章能澄清一些困惑，并从头解释mel的光谱图。信号信号是一定量随时间的变化。对于音频，变化的量是气压。我们如何以数字方式捕获此信息？我们可以随时间采集气压样本。我们采样数据的速率可以变化，但是最常见的是44.1kHz，即每秒44,100个采样。我们捕获的是信号的波形，可以使用计算机软件对其进行解释，修改和分析。import librosaimport li.

2020-08-26 09:30:01 19427 3

原创 U-Net模型介绍和Kaggle的Top1解决方案源码解析

内容列表介绍先决条件什么是U-NETU-NET结构KAGGLE数据科学SCIENCE BOWL 2018 挑战赛介绍计算机视觉是人工智能的一个领域，训练计算机解释和理解视觉世界。利用来自相机、视频和深度学习模型的数字图像，机器可以准确地识别和分类物体，然后对它们看到的东西做出反应。在过去几年里，深度学习使得计算机视觉领域迅速发展。在这篇文章中，我想讨论计算机视觉中一个叫做分割的特殊任务。尽管研究人员已经提出了许多方法来解决这个问题，但我将讨论一种特殊的架构，即UNET，它使用一个完全卷积

2020-08-25 08:50:35 4974

原创使用ML 和 DNN 建模技巧总结

每个人都可以轻松地将数据放入任何模型机器学习或深度学习框架中。但是遵循最佳实践技巧可能有助于提升工作效率。以下是常见的一些方法。本文内容数据预处理处理原始数据使用张量数据扩充数据采样模型训练存储中间状态虚拟周期简化原则定位问题调试定位问题使用评价模型数据转换欠拟合过拟合生产元数据关联切换到推理模型缩放成本无状态模式批处理使用C++数据预处理（Data Preparation）处理原始数据（Process Your Own Data）因

2020-08-24 08:40:16 5154

原创 5分钟入门GANS：原理解释和keras代码实现

本篇文章包含以下内容介绍历史直观解释训练过程GAN在MNIST数据集上的KERAS实现介绍生成式敌对网络通常也称为GANs，用于生成图像而不需要很少或没有输入。GANs允许我们生成由神经网络生成的图像。在我们深入讨论这个理论之前，我想向您展示GANs构建您兴奋感的能力。把马变成斑马(反之亦然)。历史生成式对抗网络(GANs)是由Ian Goodfellow (GANs的GAN Father)等人于2014年在其题为“生成式对抗网络”的论文中提出的。它是一种可替代的自适应变分编码器(

2020-08-23 08:09:19 3592

原创特征工程入门：应该保留和去掉那些特征

在特征/列上执行的任何能够帮助我们根据数据进行预测的操作都可以称为特征工程。这将包括以下内容:添加新功能去掉一些讲述同样内容的特征将几个特性结合在一起将一个特性分解为多个特性添加新特征假设您想预测冰淇淋、手套或伞的销售。这些东西有什么共同之处?这些商品的销售取决于“天气”和“地点”。冰淇淋在夏天或更热的地方卖得更多，手套在天气更冷(冬天)或更冷的地方卖得更多，当下雨的时候我们肯定需要一把雨伞。因此，如果您拥有所有这些产品的历史销售数据，那么在每个数据级别上添加天气和销售区域将有助于您的模型更深

2020-08-22 09:16:05 5407

原创时间卷积网络TCN：时间序列处理的新模型

这篇文章回顾了基于TCN的解决方案的最新创新。我们首先介绍了一个运动检测的案例研究，并简要回顾了TCN架构及其相对于传统方法的优势，如卷积神经网络(CNN)和递归神经网络(RNN)。然后，我们介绍了一些使用TCN的应用，包括改进交通预测，声音事件定位和检测，以及概率预测。简单回顾一下TCNLea等人(2016)的开创性工作首次提出了用于基于视频的动作分割的时间卷积网络(tns)。这个传统的过程包括两个步骤:第一，使用(通常)编码时空信息的CNN计算低级特征;第二，使用(通常)RNN将这些低级特征输入到一

2020-08-21 09:00:45 25628 6

原创用Python编写代码来理解赢得《英雄联盟》游戏的胜利的最重要因素

介绍在过去的几年里，电子竞技社区发展迅速，曾经只是休闲娱乐的电子竞技产业，到2022年有望创造18亿美元的收入。虽然在这个生态系统中有很多电子游戏，但很少有游戏像《英雄联盟》那样成为社区的主要元素，该游戏在2019年世界锦标赛期间吸引了超过1亿的独立观众。《英雄联盟》于2009年底发行，是一款免费的多人在线战斗竞技场(MOBA)视频游戏，由Riot Games公司开发，这款游戏在早期就产生了广泛的竞争场景，2011年的第一届世界冠军创造了约160万观众。随着Riot开始了解如何改变才能使游戏更具竞争性.

2020-08-20 09:12:33 12633 7

原创概率论和统计学中重要的分布函数

随机变量在概率空间中遵循不同类型的分布，这决定了它们的特征并有助于预测。本文内容列表：引言高斯/正态分布（Gaussian/Normal Distribution）二项分布(Binomial Distribution)伯努利分布(Bernoulli Distribution)对数正态分布(Log Normal Distribution)幂律分布(Power Law Distribution)分布函数的使用引言每当我们遇到任何概率实验，我们谈论的是随机变量，它只不过是获取实验预期结果的

2020-08-19 08:25:50 8073

原创 Python中得可视化：使用Seaborn绘制常用图表

Seaborn是Python中的一个库，主要用于生成统计图形。Volodymyr Hryshchenko在Unsplash上拍摄 Seaborn是构建在matplotlib之上的数据可视化库，与Python中的pandas数据结构紧密集成。可视化是Seaborn的核心部分，可以帮助探索和理解数据。要了解Seaborn，就必须熟悉Numpy和Matplotlib以及pandas。 Seaborn提供以下功能:面向数据集的API来确定变量之间的关系。线性回归曲线的自动计算和绘制。

2020-08-18 08:47:23 11933 1

原创机器学习入门：偏差和方差

偏差(bias):偏差衡量了模型的预测值与实际值之间的偏离关系。方差（variance）：方差描述的是训练数据在不同迭代阶段的训练模型中，预测值的变化波动情况（或称之为离散情况）我们这里以线性回归为例进行介绍**线性回归是一种机器学习算法，它主要用来预测定量目标。该算法根据线性方式建模的自变量来拟合包含预测数据点的直线或平面(或超平面)。**首先，让我们把这看作是最佳拟合线(为了更好地理解)。通常情况下，训练集中的数据点并不是全部都在最佳拟合线上，这是非常有意义的，因为任何数据都不是完美的。这也就.

2020-08-17 08:44:31 5461 1

原创详解DBSCAN聚类

使用DBSCAN标识为员工分组 **基于密度的噪声应用空间聚类(DBSCAN)**是一种无监督的ML聚类算法。无监督的意思是它不使用预先标记的目标来聚类数据点。聚类是指试图将相似的数据点分组到人工确定的组或簇中。它可以替代KMeans和层次聚类等流行的聚类算法。在我们的示例中，我们将检查一个包含15,000名员工的人力资源数据集。数据集包含员工的工作特征，如工作满意度、绩效评分、工作量、任职年限、事故、升职次数。KMeans vs DBSCAN KMeans尤其容易受到异常值的影响

2020-08-16 08:08:42 24716 3

原创交叉验证和超参数调整:如何优化你的机器学习模型

准确预测Fitbit的睡眠得分在本文的前两部分中，我获取了Fitbit的睡眠数据并对其进行预处理，将这些数据分为训练集、验证集和测试集，除此之外，我还训练了三种不同的机器学习模型并比较了它们的性能。在第2部分中，我们看到使用随机森林和xgboost默认超参数，并在验证集上评估模型性能会导致多元线性回归表现最佳，而随机森林和xgboost回归的表现稍差一些。在本文的这一部分中，我将讨论只使用一个验证集的缺点。除此之外，我们还会谈到如何解决这些缺点以及如何调优模型超参数以提高性能。就让我们一探究竟吧。交

2020-08-15 09:24:25 10792

原创 5个可以帮助pandas进行数据预处理的可视化图表

“一目了然胜过千言万语。”分析数据点的探索性数据分析（EDA）是在算法的数据建模之前制定假设的正确步骤。数据科学行业中一个最常见的陷阱是花费数小时为他们的项目寻找最佳算法，而没有花足够的时间首先理解数据。数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息。基于我们所寻找的，我们需要关注数据的另一个方面。一旦我们明确了目标，我们就应该开始考虑我们需要的数据点。这将使我们能够专注于最相关的信息集，而忽略可能不重要的数据集。在现实生活中，从多个来源收集到的大多数时间数

2020-08-14 09:02:10 5404

原创为什么要停止过度使用置换重要性来寻找影响特征

数据分析师通常为了某些任务需要计算特征重要度。特征重要度可以帮助使用者了解数据中是否存在偏差或者模型中是否存在缺陷。并且特征重要度可用于理解底层流程和做出业务决策。模型最重要的特性可能会给我们进一步的特征工程提供灵感。目前计算特征重要性的方法有很多种。其中一些方法基于特定的模型，例如线性回归模型中的回归系数、基于树的模型中的增益重要性或神经网络中的批处理范数参数（批处理参数通常用于NN pruning，即神经网络剪枝压缩）。其他一些方法是“通用的”，它们几乎可以应用于任何模型： SHAP 值、置换重要性

2020-08-13 09:18:11 8126

原创使用TensorFlow创建能够图像重建的自编码器模型

想象你正在解决一个拼图游戏。你已经完成了大部分。假设您需要在一幅几乎完成的图片中间修复一块。你需要从盒子里选择一块，它既适合空间，又能完成整个画面。我相信你很快就能做到。但是你的大脑是怎么做到的呢?首先，它会分析空槽周围的图片(在这里你需要固定拼图的一块)。如果图片中有一棵树，你会寻找绿色的部分(这是显而易见的!)所以，简而言之，我们的大脑能够通过知道图像周围的环境来预测图像(它将适合放入槽中)。在本教程中，我们的模型将执行类似的任务。它将学习图像的上下文，然后利用学习到的上下文预测图像的一部分(.

2020-08-11 09:01:01 4059

原创在机器学习回归问题中，你应该使用哪种评估指标？R²,RMSE, MAE

如果你像我一样，你可能会在你的回归问题中使用R平方(R平方)、均方根误差(RMSE)和均方根误差(MAE)评估指标，而不用考虑太多。????尽管它们都是通用的度量标准，但在什么时候使用哪一个并不明显。R方(R²)R²代表模型所解释的方差所占的比例。R²是一个相对度量，所以您可以使用它来与在相同数据上训练的其他模型进行比较。你可以用它来大致了解一个模型的性能。我们看看R轴是怎么计算的。向前!➡️这是一种表示R的方法。1 - (SSE/SST)SSE是误差的平方和;实际值与预测值之差的平方和。

2020-08-10 09:33:03 9773

原创在TensorFlow中使用模型剪枝将机器学习模型变得更小

学习如何通过剪枝来使你的模型变得更小剪枝是一种模型优化技术，这种技术可以消除权重张量中不必要的值。这将会得到更小的模型，并且模型精度非常接近标准模型。在本文中，我们将通过一个例子来观察剪枝技术对最终模型大小和预测误差的影响。导入常见问题我们的第一步导入一些工具、包:Os和Zipfile可以帮助我们评估模型的大小。tensorflow_model_optimization用来修剪模型。load_model用于加载保存的模型。当然还有tensorflow和keras。最后

2020-08-09 10:46:57 4954

原创简介机器学习中的特征工程

要解决一个机器学习问题，我们不能仅仅通过将算法应用到提供的数据上。比如.fit() 。我们首先需要构建一个数据集。将原始数据转换为数据集的任务称为特征工程。例如，预测客户是否坚持订阅特定产品。这将有助于进一步提高产品或用户体验，还有助于业务增长。原始数据将包含每个客户的详细信息，如位置、年龄、兴趣、在产品上花费的平均时间、客户续订订阅的次数。这些细节是数据集的特性。创建数据集的任务是从原始数据中了解有用的特性，并从对结果有影响的现有特性中创建新特性，或者操作这些特性，使它们可以用

2020-08-08 09:16:52 4365

原创 20个能够有效提高 Pandas数据分析效率的常用函数，附带解释和例子

Pandas是一个受众广泛的python数据分析库。它提供了许多函数和方法来加快数据分析过程。pandas之所以如此普遍，是因为它的功能强大、灵活简单。本文将介绍20个常用的 Pandas 函数以及具体的示例代码，助力你的数据分析变得更加高效。首先，我们导入 numpy和 pandas包。import numpy as npimport pandas as pd1. Query我们有时需要根据条件筛选数据，一个简单方法是query函数。为了更直观理解这个函数，我们首先创建一个示例 data.

2020-08-07 08:32:46 4769

原创神经网络如何学习的？

像下山一样，找到损失函数的最低点。毫无疑问，神经网络是目前使用的最流行的机器学习技术。所以我认为了解神经网络如何学习是一件非常有意义的事。为了能够理解神经网络是如何进行学习的，让我们先看看下面的图片:如果我们把每一层的输入和输出值表示为向量，把权重表示为矩阵，把误差表示为向量，那么我们就得到了上述的一个神经网络的视图，它只是一系列向量函数的应用。也就是说，函数将向量作为输入，对它们进行一些转换，然后把变换后的向量输出。在上图中，每条线代表一个函数，它可以是一个矩阵乘法加上一个误差向量，也可以是一个

2020-08-06 08:35:59 3901

原创常见机器学习算法背后的数学

不同的机器学习算法是如何从数据中学习并预测未见数据的呢?机器学习算法是这样设计的，它们从经验中学习，当它们获取越来越多的数据时，性能就会提高。每种算法都有自己学习和预测数据的方法。在本文中，我们将介绍一些机器学习算法的功能，以及在这些算法中实现的有助于学习过程的一些数学方程。机器学习算法的类型机器学习算法大致可以分为以下四类:监督学习:预测的目标或输出变量是已知的。这些算法生成一个函数，该函数将输入映射到输出变量。回归和分类算法属于这一类。在回归中，输出变量是连续的，而在分类中，输出变量包含两个或.

2020-08-05 08:46:20 5631

原创使用Pytorch和Matplotlib可视化卷积神经网络的特征

在处理图像和图像数据时，CNN是最常用的架构。卷积神经网络已经被证明在深度学习和计算机视觉领域提供了许多最先进的解决方案。没有CNN，图像识别、目标检测、自动驾驶汽车就不可能实现。但当归结到CNN如何看待和识别他们所做的图像时，事情就变得更加棘手了。CNN如何判断一张图片是猫还是狗?在图像分类问题上，是什么让CNN比其他模型更强大?他们在图像中看到了什么?这是我第一次了解CNN时的一些问题。问题会随着你的深入而增加。那时候我听说过过滤器和特性映射，但不知道它们是什么，它们的作用是什么。后..

2020-08-04 09:11:28 7976 1

原创神经网络架构搜索（NAS）基础

网络架构搜索(NAS)已成为机器学习领域的热门课题。商业服务(如谷歌的AutoML)和开源库(如Auto-Keras[1])使NAS可用于更广泛的机器学习环境。在这篇博客文章中，我们主要探讨NAS的思想和方法，希望可以帮助读者更好地理解该领域并发现实时应用程序的可能性。什么是网络架构搜索（NAS）？现代的深度神经网络有时会包含多种类型的层，而且这些层不止一个[2]。Skip connections[2]和子模块方法[3]也被用来促进模型的收敛，它们对可能形成的模型体系结构的空间没有限制。目前大多数的深度

2020-08-03 08:47:28 7528

原创一个快速构造GAN的教程：如何用pytorch构造DCGAN

在本教程中，我们将在PyTorch中构建一个简单的DCGAN，并在手写数据集上对它进行训练。我们将讨论PyTorch DataLoader，以及如何使用它将图像数据提供给PyTorch神经网络进行训练。PyTorch是本教程的重点，所以我假设您熟悉GAN的工作方式。要求python版本为3.7或更高。PyTorch 1.5不知道如何安装? 可以参考github项目https://github.com/zergtant/pytorch-handbookMatplotlib 3.1或更高版本.

2020-08-02 10:39:58 6994 1

原创这3个Scikit-learn的特征选择技术，能够有效的提高你的数据预处理能力

Scikit-learn是一个广泛使用的python机器学习库。它以现成的机器学习算法而闻名，在scikit-learn中也为数据预处理提供了很多有用的工具。数据预处理是机器学习的重要环节。我们不能仅仅将原始数据转储到模型中。我们需要清理数据，并应用一些预处理技术，以能够创建一个健壮和准确的机器学习模型。特征选择仅仅意味着使用更有价值的特征。这里的价值是信息。我们希望使用对目标变量有更多信息的特性。在一个有监督的学习任务中，我们通常有许多特征(自变量)，其中一些可能对目标(因变量)只有很少或没有价值的见

2020-08-01 13:49:59 4823

deephub