2019年07月_磐创 AI

原创知识图谱与机器学习 | KG入门 -- Part1-b 图深度学习

介绍我们正在定义一种新的机器学习方法，专注于一种新的范式 -- Data Fabric。在上一篇文章中，我们对机器学习给出了新的定义:机器学习是一种自动发现Data Fabric中隐藏的”洞察力“(insight)的过程，它使用的算法能够发现这些”洞察力“(insight)，而无需专门为此编写程序，从而创建模型来解决特定(或多个)问题。理解这一点的前提是我们创...

2019-07-31 22:27:55 3374

原创知识图谱与机器学习｜ KG入门 -- Part1 Data Fabric

介绍如果你在网上搜索机器学习，你会找到大约20500万个结果。确实是这样，但是要找到适合每个用例的描述或定义并不容易，然而会有一些非常棒的描述或定义。在这里，我将提出机器学习的另一种定义，重点介绍一种新的范式——Data Fabric[1]。目标解释Data Fabric与机器学习的关系细节给出关于Data Fabric以及创建它的生态系统的描述用几句话解...

2019-07-30 22:00:14 376

原创使用特定领域的文档构建知识图谱 | 教程

在任何业务中，word文档都是很常见的，它们以原始文本、表格和图像的形式包含信息，所有这些都包含重要的事实。此代码模式[1]中使用的数据来自维基百科的两篇文章。第一个摘自肿瘤学家Suresh H. Advani的维基百科页面，第二个摘自关于肿瘤学的维基百科页面。这些文件被压缩为archive.zip文件[2]。在下面的图中，有一个关于肿瘤学家Suresh H. Advani的文本信息...

2019-07-29 22:01:57 3078 1

转载 ICCV 2019|70 篇论文抢先读，含目标检测／自动驾驶／GCN／等（提供PDF下载）

虽然ICCV2019已经公布了接收ID名单，但是具体的论文都还没放出来，为了让大家更快得看论文，我们汇总了目前已经公布的大部分ICCV2019论文，并组织了ICCV2019论文汇总开源项目（https://github.com/extreme-assistant/iccv2019），目前已经收集到70篇论文，其中10篇Oral，13篇开源，见下方list。建议Oral的文章一定要去读一读...

2019-07-28 22:00:00 7736

原创图像配准：从SIFT到深度学习

图像配准（Image Registration）是计算机视觉中的基本步骤。在本文中，我们首先介绍基于OpenCV的方法，然后介绍深度学习的方法。什么是图像配准图像配准就是找到一幅图像像素到另一幅图像像素间的空间映射关系。这些图像可以是不同时间（多时间配准），不同传感器在不同地方拍摄（多模式配准）。这些图像之间的空间关系可以是刚性（rigid）^1（平移和旋转），仿射（affi...

2019-07-27 22:33:08 3653 2

转载 GitHub也会断供：美国制裁地区帐号都受限，毫无预警，个人页面直接404

请注意，GitHub也有断供危机。如果你有GitHub私有库，是时候重新思考安全性，也是时候制定备份策略。这不是杞人忧天，也不只温馨提示，而是已经发生的事实。一位伊朗程序员，一觉醒来GitHub帐号无法正常使用。一位克里米亚开发者，个人网页直接404。甚至一位居住在芬兰的伊朗籍工程师，GitHub帐号也被殃及“制裁”。开源社区GitHub，毕竟是一家注册在美国的公司。没有...

2019-07-27 22:33:08 385

原创 GAN的五大有趣应用

引言你能看出这张照片中面部的共同点吗？这些人都不是真实存在的！这些面部图像都是由GAN技术生成的。“GAN”这个词是由Ian Goodfellow在2014年提出的，但相关概念早在1990年就存在了（Jürgen Schmidhuber开创），在Goodfellow发出这个方向的论文之后才开始普及。从那以后，GAN就一直不断发展！实际上，GAN无处不在。数据科学家和深...

2019-07-26 22:00:00 365

原创你好，这里有一份2019年目标检测指南

目标检测(Object detection)是一种计算机视觉技术，旨在检测汽车、建筑物和人类等目标。这些目标通常可以通过图像或视频来识别。目标检测在视频监控、自动驾驶汽车、人体跟踪等领域得到了广泛的应用。在本文中，我们将了解目标检测的基础知识，并回顾一些最常用的算法和一些全新的方法。目标检测的原理目标检测定位图像中目标的存在，并在该目标周围绘制一个边界框(bounding box)。这...

2019-07-25 22:00:00 495

转载谷歌2019 学术指标发榜：CVPR首次进入Top 10，何恺明论文引用最高！

【导读】今天，谷歌发布了2019最新版学术指标，对收录的会议和期刊的影响力进行排名。AI类的多个顶会进入榜单Top 100，CVPR更是进入前10，而何恺明的“深度残差网络”单篇引用次数高达25256次，引用量最高！今天，谷歌正式发布了2019年版的学术指标(Scholar Metrics)。本次发布涵盖2014-2018年发表的文章，并包括了截至2019年7...

2019-07-24 20:04:57 762

魔图互联知识图谱推荐系统:http://motuhulian.com/市场分析首先是市场分析，第一，市场需求大，除了应用于推荐系统、舆情分析、文本检测等应用。知识图谱还可以应用于金融、零售、地产、电商等领域。第二，市场价值高，据聚合数据官方统计预估，未来五年将有30%的企业引入知识图谱技术，并会这些企业节省10%的成本。第三，人工智能大背景下知识图谱发展的必然性，从12年开始，谷歌和百度就带...

2019-07-24 11:22:48 826

原创 NLPer入门指南 | 完美第一步

介绍你对互联网上的大量文本数据着迷吗?你是否正在寻找处理这些文本数据的方法，但不确定从哪里开始?毕竟，机器识别的是数字，而不是我们语言中的字母。在机器学习中，这可能是一个棘手的问题。那么，我们如何操作和处理这些文本数据来构建模型呢?答案就在自然语言处理(NLP)的奇妙世界中。解决一个NLP问题是一个多阶段的过程。在进入建模阶段之前，我们需要首先处理非结构化文本数据。处理数据包括...

2019-07-23 11:48:28 357

原创一文总结数据科学家常用的Python库（下）

用于建模的Python库我们已经到达了本文最受期待的部分 - 构建模型！这就是我们大多数人首先进入数据科学领域的原因，不是吗？让我们通过这三个Python库探索模型构建。Scikit-learn就像用于数据操作的Pandas和用于可视化的matplotlib一样，scikit-learn是构建模型的Python库领导者。没有什么比得上它了。事实上，scikit-lea...

2019-07-22 21:50:44 679

原创一文总结数据科学家常用的Python库（上）

概述这篇文章中，我们挑选了24个用于数据科学的Python库。这些库有着不同的数据科学功能，例如数据收集，数据清理，数据探索，建模等，接下来我们会分类介绍。您觉得我们还应该包含哪些Python库？让我们知道！介绍我是Python语言的忠实粉丝，它是我在数据科学方面学到的第一门编程语言。Python有三个特点：它的易用性和灵活性全行...

2019-07-21 22:04:35 737

转载一文看懂NLP神经网络发展历史中最重要的8个里程碑！

导读：这篇文章中作者尝试将 15 年的自然语言处理技术发展史浓缩为 8 个高度相关的里程碑事件，不过它有些偏向于选择与当前比较流行的神经网络技术相关的方向。我们需要关注的是，本文中介绍的许多神经网络模型都建立在同时代的非神经网络技术之上。在文章的最后，作者强调了这些有影响力的技术成果，它们为以后的 NLP 方法发展奠定了基础。这是两篇系列文章中的第一篇。在 2018 年的 ...

2019-07-20 22:57:34 412

原创如何为计算机视觉任务选择正确的标注类型

机器学习中的注释（Annotation）是标记数据的过程，可以是文本，视频，图像或音频等形式。在计算机视觉任务中，图像注释有助于计算机更好的理解图像，计算机尝试在带注释的数据中学习出适用于新数据识别的相似的规则。有着以下几种不同类型的标注方式，具体使用那种标注方式还需要根据您的具体任务目标而定。边界框标注（Bounding Box Annotation）多边形标注（P...

2019-07-19 22:00:00 248

转载为何Keras中的CNN是有问题的，如何修复它们？

在训练了 50 个 epoch 之后，本文作者惊讶地发现模型什么都没学到，于是开始深挖背后的问题，并最终从恺明大神论文中得到的知识解决了问题。上个星期我做了一些实验，用了在 CIFAR10 数据集上训练的 VGG16。我需要从零开始训练模型，所以没有使用在 ImageNet 上预训练的版本。我开始了 50 个 epoch 的训练，然后去喝了个咖啡，回来就看到了这些学习曲线...

2019-07-18 21:17:00 256

原创探索学习率设置技巧以提高Keras中模型性能 | 炼丹技巧

学习率是一个控制每次更新模型权重时响应估计误差而调整模型程度的超参数。学习率选取是一项具有挑战性的工作，学习率设置的非常小可能导致训练过程过长甚至训练进程被卡住，而设置的非常大可能会导致过快学习到次优的权重集合或者训练过程不稳定。迁移学习我们使用迁移学习将训练好的机器学习模型应用于不同但相关的任务中。这在深度学习这种使用层级链接的神经网络中非常有效。特别是在计算机视觉任...

2019-07-17 21:58:39 815

转载超全深度学习细粒度图像分析：项目、综述、教程一网打尽

在本文中，来自旷视科技、南京大学和早稻田大学的研究者对基于深度学习的细粒度图像分析进行了综述，从细粒度图像识别、检索和生成三个方向展开论述。此外，他们还对该领域未来的发展方向进行了讨论。（CV）是用机器来理解和分析图像的过程，是人工智能中一个重要分支。在 CV 的各个研究领域中，细粒度图像分析（fine-grained image analysis, FGIA）是一个长期存在的基础性问题...

2019-07-16 22:00:00 2930 2

转载 DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

【导读】今天，DeepMind爆出一篇重磅论文，引发学术圈热烈反响：基于最强图像生成器BigGAN，打造了BigBiGAN，在无监督表示学习和图像生成方面均实现了最先进的性能！Ian Goodfellow也称赞“太酷了！”GAN在图像合成方面一次次让人们惊叹不已！例如，被称为史上最强图像生成器的BigGAN——许多人看到BigGAN生成的图像都要感叹“太逼真了！De...

2019-07-14 23:08:34 393

原创集成聚类系列（一）：基础聚类算法简介

聚类研究背景：在机器学习中，一个重要的任务就是需要定量化描述数据中的集聚现象。聚类分析也是模式识别和数据挖掘领域一个极富有挑战性的研究方向。聚类分析就是在无监督学习下数据对象的探索合适的簇的过程，在探索过程中，簇与簇之间的数据对象差异越来越明显，簇内的数据对象之间差异越来越小。聚类分析是模式识别,机器学习领域中的一个重要的研究课题，而聚类作为数据分析的常用工具，其重要性也在很多领...

2019-07-13 22:11:27 5514

原创 21个必须知道的机器学习开源工具

介绍我喜欢机器学习开源社区，作为一个有抱负且资深的数据科学家，我的大部分学习来自开源的资源和工具。如果你还没有接受机器学习中开源工具的美妙之处 -- 那么你就错过了很多东西！开源社区规模庞大，对新工具的支持态度令人难以置信，并且接受了机器学习民主化的概念。你必须已经了解流行的开源工具，如R，Python，Jupyter notebooks等等。但是，除了这些流行的工具之外...

2019-07-12 21:00:00 657

转载重磅！！！一文总结Pytorch的8张思维导图！

本文以思维导图的形式，为大家介绍了深度学习的核心内容，主要包括：深度学习与Pytorch简介、词向量、用pytorch处理常见的NLP和CV任务、图片风格迁移和GAN、Seq2Seq与Attention和问答系统。本文的主要知识内容源于七月在线的《PyTorch的入门与实战》，经授权发布，另感谢吴同学的学习笔记。深度学习回顾与Pytorch简介词向量介绍语言模型...

2019-07-11 22:18:07 1386

转载半监督学习将再度兴起！谷歌祭出大杀器：无监督数据增强

近日，谷歌AI发布了一篇博文，博文指出可以对无标注数据执行数据增强，从而显著提高了半监督学习(SSL)的性能，因此研究人员相信"半监督学习将再度兴起！"以下是具体内容：很大程度上，影响深度学习成功的关键因素有：算法的进步、并行处理硬件(GPU / TPU)以及大规模标注数据集的可用性(如ImageNet）。然而，当标注数据稀缺时，很难通过训练使神经网络表现良好。这种情...

2019-07-11 22:18:07 1947 1

转载旷视6号员工范浩强：高二开始实习，“兼职”读姚班，25岁在CVPR斩获第四个世界第一...

初来乍到，这个人说话容易让人觉得“狂”。“我们将比赛结果提交上去，果不其然，是第一名的成绩。”当他说出这句话的时候，表情没有一丝波澜，仿佛一切顺理成章。他说的是AI顶会CVPR上的一项挑战赛结果，全球巨头都有参与，AI高手均同场竞技，第一名并不容易。但如果你知道“他”叫范浩强。一切就非常稀疏平常。谁是范浩强？当初那个奥赛金牌、保送清华姚班、高二加入旷视成为6号员工的天才少年...

2019-07-10 23:22:16 986

转载十个最常用深度学习图像/视频数据标注工具

图像数据标注概述在深度学习领域，训练数据对训练结果有种至关重要的影响，在计算机视觉领域，除了公开的数据集之外，对很多应用场景都需要专门的数据集做迁移学习或者端到端的训练，这种情况需要大量的训练数据，取得这些数据方法有如下几种人工数据标注自动数据标注外包数据标注人工数据标注的好处是标注结果比较可靠，自动数据标注一般都需要二次复核，避免程序错误，外包数据...

2019-07-09 18:40:29 8295 5

原创构建一个简单的 Google Dialogflow 聊天机器人【上】

概述本教程将向您展示如何构建一个简单的Dialogflow聊天机器人，引导您完成Dialogflow的最重要功能。您将学习如何：创建Dialogflow帐户和第一个Dialogflow聊天机器人，它允许您定义自然语言理解模型。使用实体提取参数，您可以使用这些参数定义如何从用户话语中提取数据。实体允许您对用户话语的重要部分进行分类。这使您可以提取与类别而不是特定话语...

2019-07-08 22:00:00 2981

原创现在你可以通过深度学习用别人的声音来说话了

语音合成（Text-to-speech，TTS）是指文本到音频的人工转换，也可以说给定一段文字去生成对应的人类读音。人类通过阅读来完成这项任务，而一个好的TTS系统是让计算机自动完成这项任务。在打造这样一个系统时，一个非常有趣的地方是为生成的音频选择哪个声音，是男人还是女人的声音？声音是大还是小？在使用深度学习创建TTS时，这有一个限制，你必须收集文本-音频的数据集，而录制演讲的...

2019-07-06 22:08:10 7127 2

转载两行代码统计模型参数量与FLOPs，这个PyTorch小工具值得一试

你的模型到底有多少参数，每秒的浮点运算到底有多少，这些你都知道吗？近日，GitHub 开源了一个小工具，它可以统计 PyTorch 模型的参数量与每秒浮点运算数（FLOPs）。有了这两种信息，模型大小控制也就更合理了。其实模型的参数量好算，但浮点运算数并不好确定，我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算，它的参数量比较小，但是运算量非常大，它是一种计算密集型的操作...

2019-07-06 22:08:10 2020 1

原创知识图谱里的知识表示：RDF

大部分知识图谱使用RDF描述世界上的各种资源，并以三元组的形式保存到知识库中。RDF（ Resource Description Framework，资源描述框架）是一种资源描述语言，它受到元数据标准、框架系统、面向对象语言等多方面的影响，被用来描述各种网络资源，其出现为人们在Web上发布结构化数据提供一个标准的数据描述框架。使用RDF语言，有利于在网络上形成人机可读，并可由机器自动处理的文...

2019-07-05 22:00:41 9310

原创从零开始实现穿衣图像分割完整教程（附python代码演练）

时装业是人工智能领域很有前景的领域。研究人员可以开发具有一定实用价值的应用。我已经在这里展示了我对这个领域的兴趣，在那里我开发了一个来自Zalando在线商店的推荐和标记服装的解决方案。在这篇文章中，我们会开发一个提取连衣裙的应用。它输入原始的图像（从网络上下载或用智能手机拍照），并提取图像中的连衣裙。分割的难点在于原始图像中存在了大量的噪声，但是我们会在预处理期间通过一个技巧来解决...

2019-07-04 21:43:47 4247 1

原创一文综述python读写csv xml json文件各种骚操作

Python优越的灵活性和易用性使其成为最受欢迎的编程语言之一，尤其是对数据科学家而言。这在很大程度上是因为使用Python处理大型数据集是很简单的一件事情。如今，每家科技公司都在制定数据战略。他们都意识到，拥有正确的数据(干净、尽可能多)会给他们带来关键的竞争优势。数据，如果使用有效，可以提供深层次的、隐藏在表象之下的信息。多年来，数据存储的可能格式显著增...

2019-07-04 21:43:47 376

转载一文总结深度学习的12张思维导图

本文以思维导图的形式，为大家介绍了深度学习的核心内容，主要包括：深度学习基础、神经网络介绍、CNN从入门到应用、Caffe、Tensorflow、Pytorch等深度学习框架、词向量、循环神经网络、RNN条件生成与Attention、对抗生成网络、增强学习、迁移学习。本文的主要知识内容源于七月在线的《深度学习第四期》，经授权发布，另感谢海阔天空的学习笔记。导图总览深度...

2019-07-03 22:26:04 6811 4

原创用机器学习生成披头士的歌词 | 项目实战

披头士乐队是一个巨大的文化现象。他们永恒的音乐直到今天仍然与人们产生共鸣，无论老少。在我看来，他们是有史以来最伟大的乐队¹。他们的歌曲充满了有趣的歌词和深刻的思想。比如说下面的歌词： When you’ve seen beyond yourself Then you may find peace of mind is waitingthere² 是否觉得很强大？披头...

2019-07-02 22:06:25 553

转载 TensorFlow 模型优化工具包 — 训练后整型量化

模型优化工具包是一套先进的技术工具包，可协助新手和高级开发者优化待部署和执行的机器学习模型。自推出该工具包以来，我们一直努力降低机器学习模型量化的复杂性(https://www.tensorflow.org/lite/performance/post_training_quantization)。最初，我们通过“混合运算”为训练后量化提供支持，该方法可量化模型参数...

2019-07-02 22:06:25 1611 4

原创怎样设计最优的卷积神经网络架构？| NAS原理剖析

虽然，深度学习在近几年发展迅速。但是，关于如何才能设计出最优的卷积神经网络架构这个问题仍在处于探索阶段。其中一大部分原因是因为当前那些取得成功的神经网络的架构设计原理仍然是一个黑盒。虽然我们有着关于改进神经网络表现的丰富心得，但其实并没有真正了解神经网络是如何达到当前这么优秀的表现。关于CNNs的一些线索我们从如下几点开始剖析。近期研究提供了一些具体地证据证明这几点确实可以用...

2019-07-01 22:45:01 1184

TensorFlowNews