自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 在Python中用Seaborn美化图表的3个示例

进行研究时,选择图像模式一般很容易,说实话:向团队或客户传达图像模式有时要困难得多。 不仅很难用外行术语解释某些图像模式(尝试向非数学家解释一个数学符号),而且有时,您还需要试图表示对各种模式需要依赖的条件……怎么说呢?​ 图表对于我们研究人员至关重要,因此我们需要它们能够很好地传达我们的意思。 如果没有这些,我们的知识和发现所承担的责任要轻得多,但图表仍然具有最佳的视觉效果,所以我们需要确保图表可以尽可能地传达我们的发现。​ 在下面,我将讨论Seaborn以及为什么我相对于其他第三方库更喜欢它。

2020-05-31 11:47:17 5138

原创 自动美化你的Matplotlib ,使用Seaborn控制图表的默认值

如果您曾经在 Python 中进行过数据可视化,那么很可能您使用了 Matplotlib 库。这个库包含了许多绘图的功能。但是一些概念上简单的可视化需要大量的代码才能完成。而在这个时代,人们希望能够与图表进行交互——这是普通 Matplotlib 库无法提供的功能。更重要的是,采用默认设置的 Matplotlib 图表通常看起来很糟糕。当然,默认的 Matplotlib 设置能够使得您的可视化视觉效果看起来十分朴素,但是显然是有点过时的。它默认的蓝色阴影通常难以满足许多数据科学家的需求。采取.

2020-05-30 19:16:32 5419

原创 为什么中位数(大多数时候)比平均值好

开始我的数据分析冒险之旅,我发现了解数据描述的主要统计方法是非常必要的。当我深入研究时,我意识到我很难理解为给定的数据选择哪个集中趋势指标有三种:平均值,中位数和众数。所以我决定写这篇文章来帮助像我一样在这个领域里的新人来弄明白这一点,而不是害怕数据和统计。这里我们使用Pandas和世界人口的数据来做说明。首先,我们应该把数据用于探索。我在Kaggle上找到了一个很好的数据集:这个国家的统计数据。它代表了全世界所有国家的经济、社会、基础设施和环境指标。对于我们的研究,我们只需要这个数据框架中的三列:国家

2020-05-29 09:30:13 11636 1

原创 使用PyTorch手写代码从头构建LSTM,更深入的理解其工作原理

这是一个造轮子的过程,但是从头构建LSTM能够使我们对体系结构进行更加了解,并将我们的研究带入下一个层次。LSTM单元是递归神经网络深度学习研究领域中最有趣的结构之一:它不仅使模型能够从长序列中学习,而且还为长、短期记忆创建了一个数值抽象,可以在需要时相互替换。在这篇文章中,我们不仅将介绍LSTM单元的体系结构,还将通过PyTorch手工实现它。最后但最不重要的是,我们将展示如何对我们的实现做一些小的调整,以实现一些新的想法,这些想法确实出现在LSTM研究领域,如peephole。LSTM体系结构

2020-05-28 08:54:56 7926 1

原创 条件变分自动编码器CVAE:基本原理简介和keras实现

变分自动编码器(VAE)是一种有方向的图形生成模型,已经取得了很好的效果,是目前生成模型的最先进方法之一。它假设数据是由一些随机过程,涉及一个未被注意的连续随机变量z假设生成的z是先验分布P_θ(z)和条件生成数据分布P_θ(X | z),其中X表示这些数据。z有时被称为数据X的隐藏表示。像任何其他自动编码器架构一样,它有一个编码器和一个解码器。编码器部分试图学习q_φ(z | x),相当于学习数据的隐藏表示x或者x编码到隐藏的(概率编码器)表示。解码器部分试图学习P_θ(X | z)解码隐藏表示输入空间

2020-05-27 08:48:28 11548 1

原创 权重衰减== L2正则化?它们只是在某些条件下等价

神经网络是很好的函数逼近器和特征提取器,但有时它们的权值过于专门化而导致过度拟合。这就是正则化概念出现的地方,我们将讨论这一概念,以及被错误地认为相同的两种主要权重正则化技术之间的细微差异。1943年,沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)首次提出了神经网络,但它并不受欢迎,因为它们需要大量的数据和计算能力,而这在当时是不可行的。但随着上述约束条件的可行性,以及参数初始化和更好的激活函数等其他训练进步,它们再次开始在各种竞争中占据主导地位,并在各种人类

2020-05-26 10:08:22 4676

原创 1D卷积入门:一维卷积是如何处理数字信号的

卷积是在科学、工程和数学中应用最广泛的运算符之一卷积是对两个函数(f和g)进行的一种数学运算,它产生的第三个函数表示其中一个函数的形状如何被另一个函数修改。离散时间信号的卷积一种求解离散时间信号卷积的简单方法如下所示输入序列x[n] ={1,2,3,4},其索引为{0,1,2,3}脉冲响应h[n] ={5,6,7,8},其索引为{- 2,1,0,1}蓝色箭头表示x[n]和h[n]的第0个索引位置。红色指针表示输出卷积索引的第零索引位置。我们可以构造一个表,如下所示。如图所示,将x和h的元素相乘

2020-05-25 09:34:47 7174

原创 多元线性回归模型的完整解释、假设检验、特征选择

线性回归是最流行和讨论最多的模型之一,它无疑是深入机器学习(ML)的入门之路。这种简单、直接的建模方法值得学习,这是进入ML的第一步。在继续讨论之前,让我们回顾一下线性回归可以大致分为两类。简单线性回归:当只有一个输入变量时,它是线性回归最简单的形式。多元线性回归:这是一种线性回归的形式,当有两个或多个预测因子时使用。我们将看到多个输入变量如何共同影响输出变量,同时还将了解计算与简单LR模型的不同之处。我们还将使用Python构建一个回归模型。最后,我们将深入学习线性回归,学习共线性、假设检验、特

2020-05-24 12:15:34 28628 4

原创 为时间序列分析准备数据的一些简单的技巧

每个时间序列(TS)数据都装载有信息;时间序列分析(TSA)是解开所有这些的过程。然而,要释放这种潜力,需要在将数据放入分析管道之前对其进行适当的准备和格式化。TS可能看起来像一个简单的数据对象,易于处理,但事实是,对于新手来说,在真正有趣的事情开始之前,仅仅准备数据集就可能是一项艰巨的任务。因此,在本文中,我们将讨论一些简单的技巧和技巧,以获得准备好分析的数据,从而潜在地节省大量工作时间。找到数据如果您正在使用自己的数据集进行分析,那么您已经拥有了它。但是对于那些刚刚学习TSA的人来说,找到正确的

2020-05-23 13:32:53 6214

原创 AI如何能比人类的眼睛看得更清楚?通俗的解释卷积神经网络

本文介绍了现代计算机视觉的主要思想。我们探索如何将数百个学习图像中低级特征的神经元堆叠成几层。视觉,源于自然哺乳动物视觉皮层中的神经元被组织成一层一层地处理图像,其中一些神经元在识别线和边等局部特征方面具有特殊的功能;当位置和方向改变时,一些层被激活;其他层对复杂的形状(如交叉线)做出反应。这激发了堆叠的卷积层,它包括将每个神经元的视野限制在输入图像的一小块区域。接受域的大小由过滤器的大小给出,也称为内核大小。当滤波器在图像中滑动时,它的工作原理就像信号处理中的卷积,因此它允许特征检测。卷积是一

2020-05-22 08:44:18 4249

原创 Python手写强化学习Q-learning算法玩井字棋

Q-learning 是强化学习中的一种常见的算法,近年来由于深度学习革命而取得了很大的成功。本教程不会解释什么是深度 Q-learning,但我们将通过 Q-learning 算法来使得代理学习如何玩 tic-tac-toe 游戏。尽管它很简单,但我们将看到它能产生非常好的效果。要理解本教程,不必有任何关于强化学习的知识,但最好有一定的微积分和线性代数基础。首先,我们将通过一些必要的背景知识来快速了解强化学习,然后我们将介绍 Q-learning 算法,最后我们将介绍如何通过它来使得一个代理学会玩 ti

2020-05-21 08:46:10 7864 1

原创 通过Ti-One机器学习平台玩转2020腾讯广告算法大赛:数据预处理

准备查看磁盘的基本信息!df -hl!pwd我们这里只做最基本的数据处理所以只引入了基本包另外引入了ti的session后面通过它将数据上传到cosimport os, gcimport pandas as pdimport numpy as npfrom ti import sessionts=session.Session()下载和解压这里直接下载官方提供的zip包!wget https://tesla-ap-shanghai-1256322946.cos.ap-sh

2020-05-20 08:45:37 4900

原创 简单的统计学:如何用Python计算扑克概率

介绍​ 在本文中,我们展示了如何在Python中表示基本的扑克元素,例如“手”和“组合”,以及如何计算扑克赔率,即在无限额德州扑克中获胜/平局/失败的可能性。​ 我们根据《拉斯维加斯威尼斯之夜》中的真实故事提供实用的分析。在内华达州拉斯维加斯的威尼斯人的一天。​ 我们将使用poker包来表示手牌,连击和范围。 我已经扩展了来自Kevin Tseng的扑克赔率计算器,因此它除了能够计算单个手牌之外,还可以基于范围(可能的手牌)来计算扑克概率。from poker import Rangef

2020-05-19 09:23:35 6895 1

原创 Python和R之间转换的基本指南:使用Python或R知识来有效学习另一种语言的简单方法。

这里介绍的方法与我们自学习外语的时候使用的方法是有共同之处的,例如我们要学习英语,可以使用以下三个关键的练习帮助我从笨拙地将中文单词翻译成英语,转变为直接用英语思考和回答(英语思维)。把新的英语单词和我已经知道的中文单词关联起来。把英语和中文的单词作比较,使我能很快地领会这个生词的意思。重复这个词很多次,并在许多不同的场景中使用它,把这个词深深地刻在我的脑海里。利用上下文线索使我能够更好地理解这个词在同义词上的用法和原因。当你第一次学习编码时,重复和语境化是必不可少的。通过不断的重复,你开始记住词.

2020-05-18 09:21:26 10399

原创 使用Python线性回归预测Steam游戏的打折的幅度

上篇文章我们解决了Steam是否打折的问题,这篇文章我们要解决的是到底打折幅度有多少,这里我们就不能使用分类模型,而需要使用回归的模型了。主要目标在这个项目中,我将试图找出什么样的因素会影响Steam的折扣率并建立一个线性回归模型来预测折扣率。数据数据将直接从Steam的官方网站上获取。https://store.steampowered.com/tags/en/Strategy/我们使用Python编写抓取程序,使用的库包括:“re”— regex”,用于模式查找。“CSV”— 用于将

2020-05-17 10:42:58 7026

原创 来自G胖的微笑:使用python监督学习预测Steam游戏打折的概率

来自G胖的微笑:使用python监督学习预测Steam游戏打折的概率本期文章分为两期,第一篇我们先解决是否Steam平台的游戏会不会打折?下一期我们会详细分析影响Steam的打折因素基本目标使用有监督的机器学习分类模型来确定某款Steam游戏是否可以在正常一周内(没有大规模的折扣事件)出现折扣。数据在Steam官网上获得的数据。为了更容易访问,我们将收集的数据集上传到我的AWS实例中。为了访问数据,我们将使用外部Python软件包SQLAlchemy和独立的数据库工具DBeaver来与AWS服

2020-05-16 13:44:56 88216 9

原创 推荐系统为什么使用稀疏矩阵?如何使用python的SciPy包处理稀疏矩阵

在推荐系统中,我们通常使用非常稀疏的矩阵,因为项目总体非常大,而单个用户通常与项目总体的一个非常小的子集进行交互。以YouTube为例——用户通常会观看数百个(可能是数千个)视频,而YouTube的语料库中有数百万个视频,这导致了>99%的稀疏性。这意味着当我们在一个矩阵中表示用户(行)和行为(列)时,结果是一个由许多零值组成的极其稀疏的矩阵。在真实的场景中,我们如何最好地表示这样一个稀疏的用户-项目交互矩阵?为什么我们不能只使用Numpy数组或panda数据流呢?要理解这一点,我们必须理解

2020-05-15 08:57:52 5016

原创 为什么LSTM看起来那么复杂,以及如何避免时序数据的处理差异和混乱

LSTM(long short term memory,长短期记忆网络)是预测时间序列最常用的神经网络模型之一。但是这种神经网络模型相当复杂,需要特定的结构、数据前期处理等操作。当在网上搜寻要学习的代码时,很难将另一个程序员的代码合并到当前开展的项目中。对于LSTM尤其如此,导致这些问题的关键在于:数据准备的顺序数据存储的结构简单地说,由于两个关键步骤有多种方法可以获得相同的结果,因此每个程序员选择的路径可能有所不同。在这篇文章中,将分析为什么我们必须下定决心使用一组特定的范例,特别是在为冗

2020-05-14 09:31:37 8211 1

原创 What the F?机器学习中的“ F”到底是什么

What the F?机器学习中的“ F”到底是什么仔细研究一下机器学习中的“ f”一词,以及为什么不能忽略它!​ 我知道您很想知道这个“ f”实际上是什么。 我们很快就知道了。 我可以立即告诉您的一件事是,无论您对机器学习的熟悉程度如何,理解“ f”一词都会帮助您理解大多数机器学习的作用。​ 在此之前,让我们进行角色扮演。 您是一名数据科学家,而您的初创公司已责成您与市场营销同事合作,以改善公司产品的销售。 您必须就如何调整三种不同媒体(电视,广播和报纸)的广告预算向“营销人员”提供建议。​

2020-05-13 09:35:00 4550

原创 通过pytorch建立神经网络模型 分析遗传基因数据

DNA双螺旋(已对齐)合并神经网络(黄色)我最近进行了有关基因序列的研究工作。我想到的主要问题是:“哪一种最简单的神经网络能与遗传数据最匹配”。经过大量文献回顾,我发现与该主题相关的最接地气却非常有趣的工作是在Yoshua Bengio 教授的实验室中进行的。这篇论文的题目是:“饮食网络:脂肪基因组学的瘦参数”,它的主要目标是将基因序列划分为26个种族。我从那篇论文中得到了灵感,在这里我想解释一下建立神经网络来解决这类问题的基本原理。要阅读这篇博客,不需要生物学方面的背景知识;为了直接进入计算部分,我将.

2020-05-12 08:48:18 6182 2

原创 深度学习的端到端文本OCR:使用EAST模型从自然场景图片中提取文本

我们生活在这样一个时代:任何一个组织或公司要想扩大规模并保持相关性,就必须改变他们对技术的看法,并迅速适应不断变化的环境。我们已经知道谷歌是如何实现图书数字化的。或者Google earth是如何使用NLP来识别地址的。或者怎样才能阅读数字文档中的文本,如发票、法律文书等。但它到底是如何工作的呢?这篇文章是关于在自然场景图像中进行文本识别的光学字符识别(OCR)。我们将了解为什么这是一个棘手的问题,用于解决的方法,以及随之而来的代码。But Why Really?在这个数字化的时代,存储、编辑、索引

2020-05-11 10:00:08 5170

原创 现实世界中的数据科学:基于领域知识和监督学习模型的黄金价格理解与预测

本文将展示如何建立一个简单但是强大的金价预测模型,主要包含以下内容:黄金的简要历史影响金价的若干因素建立用于预测金价的回归模型利用回归模型来辅助投资决策人类为何需要黄金?大约公元前3600年,黄金首先在古埃及被采掘冶炼。经历30个世纪之后,在土耳其西部的一个古王国铸造出世界上第一枚金币,此后黄金便作为王国内的一种实物货币进行流通。在现代,黄金已经从实物货币演变为货币储备。1819年,英国正式采用有史以来第一个金本位制,将其货币与黄金挂钩。到1900年,除中国以外的大多数国家都采用了金本位制

2020-05-10 13:21:30 5777

原创 基于图卷积神经网络GCN的时间序列预测:图与递归结构相结合预测库存需求

时间序列预测任务可以按照不同的方法执行。最经典的是基于统计和自回归的方法。更准确的是基于增强和集成的算法,我们必须使用滚动周期生成大量有用的手工特性。另一方面,我们可以使用在开发过程中提供更多自由的神经网络模型,提供对顺序建模的可定制的特性。循环和卷积结构在时间序列预测中取得了巨大的成功。该领域中有趣的方法是通过采用最初在NLP中本地的Transformers和Attention架构。图结构的使用似乎不常见,在图结构中,我们有一个由不同节点组成的网络,这些节点之间通过某种链接相互关联。我们尝试做的是使用时

2020-05-09 08:48:03 18300 7

原创 一个简单的更改让PyTorch读取表格数据的速度提高20倍:可大大加快深度学习训练的速度

深度学习:需要速度​ 在训练深度学习模型时,性能至关重要。 数据集可能非常庞大,而低效的训练方法意味着迭代速度变慢,超参数优化的时间更少,部署周期更长以及计算成本更高。​ 由于有许多潜在的问题要探索,很难证明花太多时间来进行加速工作是合理的。 但是幸运的是,有一些简单的加速方法!​ 我将向您展示我在PyTorch中对表格的数据加载器进行的简单更改如何将训练速度提高了20倍以上,而循环没...

2020-05-08 09:23:39 5677 1

原创 数据的预处理基础:如何处理缺失值

数据集缺少值? 让我们学习如何处理:数据清理/探索性数据分析阶段的主要问题之一是处理缺失值。 缺失值表示未在观察值中作为变量存储的数据值。 这个问题在几乎所有研究中都是常见的,并且可能对可从数据得出的结论产生重大影响。查看数据中的缺失值,您的第一项工作是基于3种缺失值机制来识别缺失模式:MCAR(完全随机丢失):如果数据的缺失与任何值(观察或缺失)之间没有关系,则为MCAR。...

2020-05-07 08:42:31 8281

原创 机器学习中数据特征的处理 归一化vs标准化,哪个更好

​ 众所周知,特征工程是将原始数据转换为数据集的过程。 有各种可用的功能工程技术。 两种最广泛使用且最容易混淆的特征工程技术是:标准化归一化​ 今天我们将探讨这两种技术,并了解数据分析师在解决数据科学问题时所做出的一些常见假设。 另外,本教程的全部代码都可以在下面的GitHub存储库中找到:https://github.com/Tanu-N-Prabhu/Python/blob/m...

2020-05-06 08:38:07 6279

原创 XGBoost算法背后的数学:尽可能简单地解释XGBoost算法背后的机制

如果你想很好地理解某些内容,请尝试简单地给别人解释出来。 ——费曼XGBoost是一个很优美的算法,它的过程不乏启发性。这些通常简单而美丽的概念在数学术语中消失了。我在理解数学的过程中也遇到过同样的挑战,所以我写这篇文章的目的是巩固我的理解,同时帮助其他人完成类似的过程。为了解XGBoost是什么,我们首先要了解什么是梯度提升机Gradient Boosting,以及梯度提升机背后的...

2020-05-05 10:25:42 4758 2

原创 机器学习模型的超参数优化

引言模型优化是机器学习算法实现中最困难的挑战之一。机器学习和深度学习理论的所有分支都致力于模型的优化。机器学习中的超参数优化旨在寻找使得机器学习算法在验证数据集上表现性能最佳的超参数。超参数与一般模型参数不同,超参数是在训练前提前设置的。举例来说,随机森林算法中树的数量就是一个超参数,而神经网络中的权值则不是超参数。其它超参数有:神经网络训练中的学习率支持向量机中的 ccc 参数和 γ...

2020-05-04 08:26:40 8028

原创 Explainable AI (XAI) 不能解释什么 以及我们如何解决这个问题

神经网络准确但不可解释,决策树是可解释的,但在计算机视觉中是不准确的。对于这种问题,我们在本文有一个解决办法。来自IEEE会员Cuntai Guan,他承认“many machine decisions are still poorly understood "。大多数论文甚至在准确性和可解释性之间提出严格的二分法.Explainable AI (XAI)试图填补这个鸿沟,但...

2020-05-03 10:20:38 6406

原创 理论结合实际:如何调试神经网络并检查梯度

当我们实现神经网络时,反向传播的过程中更容易出错。 因此,如果我们能够实现一些使我们能够轻松调试神经网络的工具,那将是多么酷。 在这里,我们将看到“梯度检查”的方法。 简而言之,该方法使用数值方法近似梯度。 如果实际的梯度接近计算得出的梯度,则可以正确实施反向传播。 还有很多其他方法,让我们一起看看。 有时,可以看到网络在几个epoch内陷入僵局,然后继续快速收敛。 我们还将看到如何解决这个...

2020-05-02 10:23:29 5430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除