机器学习
文章平均质量分 75
磐创 AI
这个作者很懒,什么都没留下…
展开
-
LightGBM 中文文档
LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树. 它是分布式的, 高效的, 装逼的, 它具有以下优势:速度和内存使用的优化减少分割增益的计算量通过直方图的相减来进行进一步的加速减少内存的使用 减少并行学习的通信代价稀疏优化准确率的优化Leaf-wise (Best-first) 的决策树生长策略类别特征值的最优分割网络通信的优化并行学习的优化特征并行数据并行投票并行GPU 支持可处理大规模数据LightGBM 中文文档https://lig转载 2021-02-25 20:40:52 · 2532 阅读 · 0 评论 -
分析师和统计学家可以和谐相处吗?
作者|Cassie Kozyrkov编译|VK来源|https://towardsdatascience.com/can-analysts-and-statisticians-get-along-5c9a65c8d056当你面对不确定性时,分析师会帮助你提出更好的问题,而统计学家则会给出更严谨的答案。看起来他们好像可以互相协作,可是只是一个美好的梦想,但是这些职业最终以某种方式落到了彼此的咽...原创 2020-03-05 11:27:52 · 1131 阅读 · 0 评论 -
为什么要在离线A/B测试中使用贝叶斯方法
当涉及到假设检验时,贝叶斯方法可以取代经典的统计方法。这里将使用web分析的具体案例来演示我们的演示。贝叶斯方法在经典统计中的重要性在此链接。https://towardsdatascience.com/from-frequentism-to-bayesianism-hypothesis-testing-a-simple-illustration-11213232e551假设检验是统计学...原创 2020-03-03 09:40:30 · 1330 阅读 · 0 评论 -
面向软件工程师的卡尔曼滤波器
与我的朋友交谈时,我经常听到:“哦,卡尔曼(Kalman)滤波器……我经常学它,然后我什么都忘了”。好吧,考虑到卡尔曼滤波器(KF)是世界上应用最广泛的算法之一(如果环顾四周,你80%的技术可能已经在内部运行某种KF),让我们尝试将其弄清楚。在这篇文章的结尾,你将对KF的工作原理,其背后的想法,为什么需要多个变体以及最常见的变体有一个直观而详细的了解。状态估计KF是所谓的状态估计算法的一部...原创 2020-03-01 09:16:42 · 1656 阅读 · 0 评论 -
你能在泰坦尼克号上活下来吗?Kaggle的经典挑战
KaggleKaggle是一个数据科学家共享数据、交换思想和比赛的平台。人们通常认为Kaggle不适合初学者,或者它学习路线较为坎坷。没有错。它们确实给那些像你我一样刚刚起步的人带来了挑战。作为一个(初级)数据科学家,我忍不住要在Kaggle上搜索有趣的数据集来开始我的旅程。我了解了泰坦尼克号数据集。泰坦尼克号数据集包含泰坦尼克号上乘客的信息。我使用Python来可视化和理解更多关于数...原创 2020-02-28 13:39:02 · 6927 阅读 · 2 评论 -
通过深度学习来创作自己的音乐
概述学习如何开发自动生成音乐的端到端模型理解WaveNet架构,并使用Keras从头实现它比较WaveNet与建立自动音乐生成模型的LSTM的性能介绍“如果我不是物理学家,我可能会成为音乐家。我经常在音乐上思考。我在音乐中实现我的白日梦。我从音乐的角度来看待我的生活。——爱因斯坦我可能不是像爱因斯坦先生那样的物理学家,但我完全同意他对音乐的看法!我不记得有哪一天我没有打...原创 2020-02-26 10:49:04 · 6964 阅读 · 15 评论 -
GANs和低效映射
生成对抗网络(GANs)被誉为生成艺术领域的下一纪元,这是有充分理由的。新技术一直是艺术的驱动因素,从颜料的发明到照相机再到Photoshop-GAN是自然而然的。例如,考虑下面的图片,由埃尔加马勒发表在2017年的论文。如果你不熟悉GAN,那么本文将简要介绍训练过程。简而言之,GAN将随机噪声作为输入,并且产生的输出与真实数据是无法区分的(如果训练顺利的话),其中真实数据几乎可以是任何东西...原创 2020-02-23 19:57:46 · 878 阅读 · 0 评论 -
使用PyTorch建立你的第一个文本分类模型
概述学习如何使用PyTorch执行文本分类理解解决文本分类时所涉及的要点学习使用包填充(Pack Padding)特性介绍我总是使用最先进的架构来在一些比赛提交模型结果。得益于PyTorch、Keras和TensorFlow等深度学习框架,实现最先进的体系结构变得非常容易。这些框架提供了一种简单的方法来实现复杂的模型体系结构和算法,而只需要很少的概念知识和代码技能。简而言之,它们...原创 2020-02-19 20:59:02 · 4632 阅读 · 6 评论 -
5个数据科学中用于再现的工具
在科学上,再现的定义是"当一个实验重复时所获得的一致结果的程度"。数据是可以更改的,特别是数据库中保存的数据。此外,数据科学很大程度上是基于随机抽样、概率和实验的。因此,在这个领域中,模型的结果和输出可以由同事或你自己在将来的某个时间点复制,生成分析和构建这种模型是非常具有挑战性的。尽管获取数据比较困难,但是有很多原因可以解释为什么再现性对于好的数据科学来说是至关重要的。再现性支持合作。数...原创 2020-02-16 19:03:24 · 1828 阅读 · 0 评论 -
fastai 官方教程之查看数据
本文为fastai官方教程编译版本。若有错误,欢迎指正。总目录:*查看数据:本节为初级教程,介绍怎样快速的查看你的数据和模型预测结果。*推理学习器(Inference Learner):本节为中级教程,介绍怎样为(模型)推理创建学习器。自定义类ItemList(Custom ItemList):本节为高级教程,介绍如何创建类ItemBase与类ItemList。使用极小的代价实现深度...原创 2020-02-13 21:37:09 · 1946 阅读 · 0 评论 -
通过带Flask的REST API在Python中部署PyTorch
在本教程中,我们将使用Flask来部署PyTorch模型,并用讲解用于模型推断的 REST API。特别是,我们将部署一个预训练的DenseNet 121模型来检测图像。备注:可在GitHub上获取本文用到的完整代码这是在生产中部署PyTorch模型的系列教程中的第一篇。到目前为止,以这种方式使用Flask是开始为PyTorch模型提供服务的最简单方法,但不适用于具有高性能要求的用例。...原创 2020-02-07 13:32:00 · 2048 阅读 · 0 评论 -
在C 中加载TorchScript模型
本教程已更新为可与PyTorch 1.2一起使用顾名思义,PyTorch的主要接口是Python编程语言。尽管Python是合适于许多需要动态性和易于迭代的场景,并且是首选的语言,但同样的,在许多情况下,Python的这些属性恰恰是不利的。后者通常适用的一种环境是要求生产-低延迟和严格部署。对于生产场景,即使只将C 绑定到Java,Rust或Go之类的另一种语言中,它也是经常选择的语言。以下...原创 2020-01-29 20:51:30 · 1935 阅读 · 0 评论 -
TorchScript简介
本教程是对TorchScript的简介,TorchScript是PyTorch模型(nn.Module的子类)的中间表示,可以在高性能环境(例如C )中运行。在本教程中,我们将介绍:PyTorch中的模型创作基础,包括:模组定义前向功能将模块组成模块的层次结构将PyTorch模块转换为TorchScript(我们的高性能部署运行时)的特定方法跟踪现有模块使用脚本直接编...原创 2020-01-26 22:40:15 · 4978 阅读 · 2 评论 -
元学习方法介绍
人工智能的一个基本问题是它无法像人类一样高效地学习。许多深度学习分类器显示了超人的表现,但需要数百万个训练样本。知识不共享,并且每个任务都独立于其他任务进行训练。在本文中,我们将该研究问题,然后检查一些建议的解决方案。问题与人类相比,大多数最先进的深度学习方法都有两个关键的弱点:样本效率:深度学习的样本效率很差。例如,为了识别数字,我们通常每个数字需要6000个样本。可移植性差。我们不...原创 2020-01-24 18:51:28 · 4378 阅读 · 0 评论 -
将距离度量学习应用于购物问题
让我们先描述我们的购物问题:在用户图像中识别时尚商品并在网上商店中找到它。您是否曾经在街上看到某人,并想过:“哇,这是一件漂亮的衣服,我想知道在哪里可以买到它?”对我而言,尝试距离度量学习技术是一项很酷的任务。我希望您也会发现它有趣。数据集首先,我们需要一个数据集。实际上,当我发现Aliexpress上的用户拍摄了大量图像后,便想到了这个想法。我想“哇,我当然可以用这些数据来按图像搜索”。为...原创 2020-01-22 21:08:00 · 2045 阅读 · 0 评论 -
Visdom 介绍 | 二
用于创建,组织和共享实时丰富数据可视化的灵活工具。支持Python。概述概念设置用法API注意事项贡献API要快速了解visdom的功能,请查看example目录,或阅读以下详细信息。Visdom Arguments(仅限Python)python visdom客户端有以下几种选择:server:visdom服务器的主机名(默认值:'http://localhos...原创 2020-01-20 22:34:57 · 1211 阅读 · 0 评论 -
Visdom 介绍 | 一
用于创建,组织和共享实时丰富数据可视化的灵活工具。支持Python。概述概念设置用法API待办事项贡献概述Visdom旨在促进(远程)数据的可视化,重点是支持科学实验。为你自己和你的团队成员生成图表,图像和文本的可视化。以编程方式或通过用户界面来组织可视化空间,以创建实时数据的面板,来检查实验结果或调试实验代码。概念Visdom具有一组简单的特征,可以针对各...原创 2020-01-19 20:05:48 · 2665 阅读 · 0 评论 -
理解熵,交叉熵和交叉熵损失
交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时,我很难理解它背后的直觉。在google了不同材料后,我能够得到一个令人满意的理解,我想在这篇文章中分享它。为了全面理解,我们需要按照以下顺序理解概念:自信息, 熵,交叉熵和交叉熵损失自信息"你对结果感到惊讶的程度"一个低概率的结果与一个高概率的结果相比,低概率的结...原创 2020-01-12 15:27:13 · 3371 阅读 · 0 评论 -
使用一行Python代码从图像读取文本
处理图像不是一项简单的任务。对你来说,作为一个人,很容易看着某样东西然后马上知道你在看什么。但电脑不是这样工作的。对你来说太难的任务,比如复杂的算术,或者一般意义上的数学,是计算机毫不费力就能完成的。但在这里,情况正好相反——对你来说很琐碎的任务,比如识别图像中的猫或狗,对电脑来说真的很难。在某种程度上,我们是天造地设的一对。至少现在是这样。虽然图像分类和涉及到一定程度计算机视觉的任务可能需...原创 2020-01-10 13:12:59 · 7560 阅读 · 7 评论 -
FastAI 简介
Fastai简介在深度学习领域,最受学生欢迎的MOOC课程平台有三个:Fast.ai、deeplearning.ai /Coursera和Udacity。Fastai作为其中之一,是一个课程平台,一个讨论社区,也是一个PyTorc的顶层框架。Fastai的理念就是:Making neural nets uncool again,让神经网络没那么望而生畏,其课程也是采用项目驱动的方式教学。经过Fa...原创 2020-01-08 20:26:51 · 3886 阅读 · 0 评论 -
Numpy和OpenCV中的图像几何变换
介绍上面的图像使它不言而喻什么是几何变换。它是一种应用广泛的图像处理技术。例如,在计算机图形学中有一个简单的用例,用于在较小或较大的屏幕上显示图形内容时简单地重新缩放图形内容。它也可以应用于扭曲一个图像到另一个图像平面。例如,与其直视前方的场景,不如自上而下地看。在这个场景中应用透视图变换来实现这一点。另一个应用是训练深层神经网络。训练深度模型需要大量的数据。在几乎所有的情况下,模型都受...原创 2020-01-06 12:29:10 · 1795 阅读 · 0 评论 -
从云计算到边缘计算
预计到2025年,边缘计算市场规模将达到290亿美元。在这十年里,已经发生了一场从本地计算到云计算的转变,允许系统集中和可访问,并提高了安全性和协作性。今天,在新的十年即将到来之际,我们见证了从云计算到边缘计算的转变。什么是边缘计算?边缘计算是指在互联网的“外部边缘”进行的计算,而不是在中心位置进行计算的云计算。边缘计算通常在数据源附近执行,例如在连接的相机附近。自动驾驶汽车是边缘计算...原创 2020-01-05 14:48:19 · 2928 阅读 · 1 评论 -
Kullback-Leibler(KL)散度介绍
在这篇文章中,我们将探讨一种比较两个概率分布的方法,称为Kullback-Leibler散度(通常简称为KL散度)。通常在概率和统计中,我们会用更简单的近似分布来代替观察到的数据或复杂的分布。KL散度帮助我们衡量在选择近似值时损失了多少信息。让我们从一个问题开始我们的探索。假设我们是太空科学家,正在访问一个遥远的新行星,我们发现了一种咬人的蠕虫,我们想研究它。我们发现这些蠕虫有10颗牙齿,但由...原创 2020-01-02 14:02:59 · 2337 阅读 · 0 评论 -
如何以2万美元出售你的软件
我猜你要么每年卖20美元的软件给1000人,要么每年卖2万美元的软件给一家公司,而这两种方式都相当不错。我不知道哪个更容易,但是我做到了第二种。我每年只需要吸引一位客户时,我认为这是很不错的。如果你想走这条路,这是我的想法:1. 找到一款售价2万美元的软件这个意思是你最好不要想出新的产品,很多商业问题都被认为是死的了。如果现在还没有一个解决它的产品,那很可能是因为根本没有必要。同样,对于“...原创 2020-01-01 13:21:27 · 2666 阅读 · 1 评论 -
AI的博弈论,一份插图教程
介绍我想先问一个简单的问题——你能认出下图中的两个人吗?我肯定你说对了。对于我们这些早期数学发烧友来说,电影《美丽心灵》(A Beautiful Mind)已经深深地印在了我们的记忆中。Russell Crowe在电影中扮演John Nash,一位诺贝尔经济学奖得主(上图左侧)。现在,你应该还记得那个经典场景:“不要追金发女郎”。在这个场景中,约翰·纳什引用道:“当团队中的每个人都在做...原创 2019-12-30 10:49:47 · 895 阅读 · 1 评论 -
用于图像降噪的卷积自编码器
这篇文章的目的是介绍关于利用自动编码器实现图像降噪的内容。在神经网络世界中,对图像数据进行建模需要特殊的方法。其中最著名的是卷积神经网络(CNN或ConvNet)或称为卷积自编码器。并非所有的读者都了解图像数据,那么我先简要介绍图像数据(如果你对这方面已经很清楚了,可以跳过)。然后,我会介绍标准神经网络。这个标准神经网络用于图像数据,比较简单。这解释了处理图像数据时为什么首选的是卷积自编码器。...原创 2019-12-26 14:06:52 · 2393 阅读 · 1 评论 -
深入理解卷积网络的卷积
卷积神经网络是一种特殊的神经网络结构,是自动驾驶汽车、人脸识别系统等计算机视觉应用的基础,其中基本的矩阵乘法运算被卷积运算取代。它们专门处理具有网格状拓扑结构的数据。例如,时间序列数据和图像数据可以看作是一个二维像素网格。历史卷积神经网络最初是由福岛核电站在1980年引入的,当时名为Neocognitron。它的灵感来自于Hubel和Weisel提出的神经系统的层次模型。但由于其复杂的无监...原创 2019-12-17 11:26:39 · 1335 阅读 · 0 评论 -
OpenCV-Python 图像的几何变换 | 十四
目标学习将不同的几何变换应用到图像上,如平移、旋转、仿射变换等。你会看到这些函数: cv.getPerspectiveTransform变换OpenCV提供了两个转换函数cv.warpAffine和cv.warpPerspective,您可以使用它们进行各种转换。cv.warpAffine采用2x3转换矩阵,而cv.warpPerspective采用3x3转换矩阵作为输入。缩放...原创 2019-12-13 15:14:39 · 1225 阅读 · 0 评论 -
使用Keras构建深度图像搜索引擎
动机想象一下,如果有数十万到数百万张图像的数据集,却没有描述每张图像内容的元数据。我们如何建立一个系统,能够找到这些图像的子集来更好地回答用户的搜索查询?我们基本上需要的是一个搜索引擎,它能够根据图像与搜索查询的对应程度对图像结果进行排序,可以用一种自然语言表示,,也可以用其他查询图像表示。我们将在本文中解决问题的方法是训练一个深度神经模型,该模型学习任何输入图像和文本的固定长度表示形式(...原创 2019-12-11 15:47:56 · 1181 阅读 · 0 评论 -
六个开源数据科学项目
简介我最近参加了一个开放数据科学家职位的面试。正如你所能想象的,有来自各种背景的候选人——软件工程、学习和开发、金融、市场营销等等。让我印象深刻的是,这些人已经完成了一系列令人惊叹的项目。他们本身在数据科学方面并没有太多的行业经验,但是他们对学习新概念的热情和好奇心驱使他们去了以前从未涉足过的领域。一个共同的特点,开源数据科学项目。在过去的几年里,我一直认可开源数据项目的价值。相信我,招聘...原创 2019-12-06 16:14:08 · 1256 阅读 · 0 评论 -
使用DeepWalk从图中提取特征
目录数据的图示不同类型的基于图的特征节点属性局部结构特征节点嵌入DeepWalk简介在Python中实施DeepWalk以查找相似的Wikipedia页面数据的图示当你想到“网络”时,会想到什么?通常是诸如社交网络,互联网,已连接的IoT设备,铁路网络或电信网络之类的事物。在图论中,这些网络称为图。网络是互连节点的集合。节点表示实体,它们之间的连接是某种关系。...原创 2019-12-03 15:00:30 · 7272 阅读 · 2 评论 -
4个提高深度学习模型性能的技巧
介绍过去两年的大部分时间,我几乎都在深度学习领域工作。这是一个相当好的经历,这中间我参与了图像和视频数据相关的多个项目。在那之前,我处于边缘地带,我回避了对象检测和人脸识别等深度学习概念。直到2017年底才开始深入研究。在这段时间里,我遇到了各种各样的难题。我想谈谈四个最常见的问题,大多数深度学习实践者和爱好者在他们的旅程中都会遇到。如果你之前参与过深度学习项目,你就能很快理解这些障碍。好...原创 2019-11-30 13:01:12 · 1693 阅读 · 0 评论 -
PySpark初级教程——第一步大数据分析(附代码实现)
概述数据正以前所未有的速度与日俱增如何存储、处理和使用这些数据来进行机器学习?spark正可以应对这些问题了解Spark是什么,它是如何工作的,以及涉及的不同组件是什么简介我们正在以前所未有的速度生成数据。老实说,我跟不上世界各地里产生的巨大数据量!我敢肯定你已经了解过当今时代数据的产量。McKinsey, Gartner, IBM,等公司都给出了他们公司的数据。这里有一些令人...原创 2019-11-28 19:09:03 · 2537 阅读 · 1 评论 -
新程序员七宗罪
当我发表这篇文章《为什么每个工程师都应该开始考虑开发中的分析和编程技能呢?》时,我从未想到它会对读者产生如此积极的影响。那些想要开始探索编程和数据科学领域的人向我寻求建议;还有一些人问我下一篇文章的发布日期;还有许多人询问如何顺利过渡到这个职业。我非常鼓励大家继续分享我在这个旅程的经验,学习,成功和失败,以帮助尽可能多的人过渡到一个充满无数好处和机会的职业生涯。亲爱的读者,谢谢你。 -罗伯特。...原创 2019-11-26 11:03:47 · 32498 阅读 · 13 评论 -
Jupyter Notebook自动补全
大多数程序员都非常熟悉不同的自动补全工具。然而,我注意到许多数据科学家还没有使用它。如果你是他们中的一员,是时候开始使用这个提高效率的工具了什么是自动补全?它是你的编程环境提供的一种功能,用于完成你正在编写的代码。它对大多数程序员来说是一种神器,如果你现在开始使用它,它也将是你的神器。这些只是使用自动补全的几个优点:节约时间。你将不再需要键入这个长变量!更少的bug。很多时候你的代码不...原创 2019-11-24 16:20:50 · 1769 阅读 · 0 评论 -
Apple的Core ML3简介——为iPhone构建深度学习模型(附代码)
概述Apple的Core ML 3是一个为开发人员和程序员设计的工具,帮助程序员进入人工智能生态你可以使用Core ML 3为iPhone构建机器学习和深度学习模型在本文中,我们将为iPhone构建一个全新的应用程序!介绍想象一下,在不需要深入了解机器学习的情况下,使用最先进的机器学习模型来构建应用程序。这就是Apple的Core ML 3!你是Apple的狂热粉丝吗?...原创 2019-11-22 10:23:50 · 2604 阅读 · 1 评论 -
使用高斯混合模型建立更精确的聚类
介绍我很喜欢研究无监督学习问题。它们为监督学习问题提供了一个完全不同的挑战,用我拥有的数据进行实验的发挥空间要比监督学习大得多。毫无疑问,机器学习领域的大多数发展和突破都发生在无监督学习领域。无监督学习中最流行的技术之一就是聚类。这是一个我们通常在机器学习的早期学习的概念,它很容易理解。我相信你曾经遇到过,甚至参与过顾客细分、购物篮分析等项目。但问题是聚类有很多方面。它并不局限于我们之前学...原创 2019-11-16 15:31:27 · 747 阅读 · 0 评论 -
使用高斯混合模型建立更精确的聚类
介绍我很喜欢研究无监督学习问题。它们为监督学习问题提供了一个完全不同的挑战,用我拥有的数据进行实验的发挥空间要比监督学习大得多。毫无疑问,机器学习领域的大多数发展和突破都发生在无监督学习领域。无监督学习中最流行的技术之一就是聚类。这是一个我们通常在机器学习的早期学习的概念,它很容易理解。我相信你曾经遇到过,甚至参与过顾客细分、购物篮分析等项目。但问题是聚类有很多方面。它并不局限于我们之前学...原创 2019-11-16 14:11:57 · 1665 阅读 · 1 评论 -
深度学习、物联网专家Sunil Kumar Vuppala博士独家专访
介绍有多种方法可以学习数据科学,机器学习和深度学习概念。您可以观看视频,阅读文章,参加课程,参加会议等。但是有一件事是无法替代的————经验。我个人从与数据科学专家和行业领袖的交流中学到了很多。他们管理端到端机器学习和深度学习项目的经验,他们从零开始建立数据科学团队的想法,他们如何管理困难的项目和克服障碍这些等等,是我们无法在任何课程中学习到的,因此,我很高兴能对这样一位数据科学专家和行业思...原创 2019-11-13 09:35:39 · 776 阅读 · 0 评论 -
使用PyTorch进行迁移学习
概述迁移学习可以改变你建立机器学习和深度学习模型的方式了解如何使用PyTorch进行迁移学习,以及如何将其与使用预训练的模型联系起来我们将使用真实世界的数据集,并比较使用卷积神经网络(CNNs)构建的模型和使用迁移学习构建的模型的性能介绍我去年在一个计算机视觉项目中工作,我们必须建立一个健壮的人脸检测模型。考虑到我们拥有的数据集的大小,从头构建一个模型是一个挑战。从头构建将是一...原创 2019-11-12 12:59:25 · 2813 阅读 · 0 评论