2020年06月_磐创 AI

原创使用片段嵌入进行文档搜索

作者|Ajit Rajasekharan编译|VK来源|Towards Data Science从文档中获取的句子片段的嵌入可以作为该文档的提取摘要方面，并可能加速搜索，特别是当用户输入是一个句子片段时。这些片段嵌入不仅比传统的文本匹配系统产生更高质量的结果,也是问题的内在驱动的搜索方法。现代向量化表示挑战创建有效的文档嵌入,捕捉所有类型的文档,使其通过使用嵌入在文档级别进行搜索。例如“蝙蝠是冠状病毒的来源”、“穿山甲中的冠状病毒”，由介词、形容词等连接一个或多个名词短语的短序列。这些突出显示的连

2020-06-30 18:47:51 943

原创假设检验、Z检验与T检验

作者|SUBHASH MEENA编译|VK来源|Analytics Vidhya概述假设检验是统计学、分析学和数据科学中的一个关键概念了解假设检验的工作原理、Z检验和t检验之间的区别以及其他统计概念介绍冠状病毒大流行使我们大家都成了一个统计学家。我们不断地核对数字，对大流行将如何发展做出自己的假设，并对何时出现“高峰”提出假设。不仅是我们在进行假设构建，媒体也在这方面蓬勃发展。几天前，我读到一篇新闻文章，其中提到这次疫情“可能是季节性的”，在温暖的环境下会有所缓解：所以我开始想

2020-06-30 18:10:06 3943

原创使用PyCaret构建机器学习模型

作者|LAKSHAY ARORA编译|VK来源|Analytics Vidhya概述PyCaret是一个超级有用的Python库，用于在短时间内执行多个机器学习任务学习如何依赖PyCaret在几行代码中构建复杂的机器学习模型介绍我建立的第一个机器学习模型是一个相当麻烦的代码块。我仍然记得构建一个集成模型，它需要许多行代码，它十分需要一个向导来解开这些混乱的代码！当涉及到构建可解释的机器学习模型时，尤其是在行业中，编写高效的代码是成功的关键。所以我强烈建议使用PyCaret库。我希

2020-06-30 14:46:45 3086 4

原创 Python图像处理

作者|Garima Singh编译|VK来源|Git Connected以前照相从来没有那么容易。现在你只需要一部手机。拍照是免费的，如果我们不考虑手机的费用的话。就在上一代人之前，业余艺术家和真正的艺术家如果拍照非常昂贵，并且每张照片的成本也不是免费的。我们拍照是为了及时保存伟大的时刻，被保存的记忆随时准备在未来被"打开"。就像腌制东西一样，我们要注意正确的防腐剂。当然，手机也为我们提供了一系列的图像处理软件，但是一旦我们需要处理大量的照片，我们就需要其他的工具。这时，编程和

2020-06-29 21:21:05 1119

原创 NumPy教程

作者|ANIRUDDHA BHANDARI编译|VK来源|Analytics Vidhya概述NumPy是一个Python库，每个数据科学专业人员都应该熟悉它这个全面的NumPy教程从头开始介绍NumPy，从基本的数学运算到NumPy如何处理图像数据本文中有大量的Numpy概念和Python代码介绍我非常喜欢Python中的NumPy库。在我的数据科学之旅中，我无数次依赖它来完成各种任务，从基本的数学运算到使用它进行图像分类！简而言之，NumPy是Python中最基本的库之一，也

2020-06-29 14:00:06 4599 3

原创 NLP中的标识化

作者|ARAVIND PAI编译|VK来源|Analytics Vidhya概述标识化是处理文本数据的一个关键我们将讨论标识化的各种细微差别，包括如何处理词汇表外单词（OOV）介绍从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。为了让我们的计算机理解任何文本，我们需要用机器能够理解的方式把这个词分解。这就是自然语言处理（NLP）中标识化的概念。简单地说，标识化(Tokenizatio

2020-06-28 12:08:42 1646

原创概率论的数学基础

作者|Tivadar Danka编译|VK来源|Towards Data Science抽象是为了隐藏不相关的东西，只关注重要的细节。虽然有时看起来很可怕，但它是管理复杂性的最佳工具。如果你让n个数学家来定义数学是什么，你可能会得到2n个不同的答案。我的定义是，它是一门将事物抽象出来，直到只剩下核心的科学，为任何事物的推理提供了最终的框架。你想过概率到底是多少吗？你肯定用它来推理数据，做统计分析，甚至通过统计学习为你建立推理算法。在这篇文章中，我们将深入探索概率论。前置知识为了贯彻下去，你不

2020-06-26 15:37:39 1241

原创用直方图和箱线图理解数据

作者|Rashida Nasrin Sucky编译|VK来源|Towards Data Science了解如何从直方图和箱线图中提取信息理解这些数据并不意味着只得到平均值、中位数和标准差。很多时候，了解数据的可变性、传播或分布是很重要的。直方图和箱线图都有助于提供有关数据集的大量额外信息，有助于理解数据。直方图直方图只从数据集中获取一个变量，并显示每次出现的频率。我将使用一个简单的数据集来学习直方图如何帮助理解数据集。我会用python来制作图片。导入数据集：import pandas a

2020-06-24 20:41:59 4785

原创神经网络简易教程

作者|Renu Khandelwal编译|VK来源|Medium在这篇文章中，我们将了解神经网络的基础知识。这个博客的先决条件是对机器学习的基本理解，如果你尝试过一些机器学习算法，那就更好了。首先简单介绍一下人工神经网络，也叫ANN。很多机器学习算法的灵感来自大自然，而最大的灵感来自我们的大脑，我们如何思考、学习和做决定。有趣的是，当我们触摸到热的东西时，我们身体里的神经元将信号传递给大脑的。然后，大脑产生冲动，从热的区域撤退。我们根据经验接受了训练。根据我们的经验，我们开始做出更好的决定

2020-06-24 12:10:43 1455

原创无梯度强化学习：使用Numpy进行神经进化

作者|Jacob Gursky编译|VK来源|Towards Data Science介绍如果我告诉你训练神经网络不需要计算梯度，只需要前项传播你会怎么样？这就是神经进化的魔力！同时，我要展示的是，所有这一切只用Numpy都可以很容易地做到！学习统计学你会学到很多关于基于梯度的方法，但是不久前我读了Uber AI的人写的一篇非常有趣的文章，他表明在解决Atari游戏时，简单的遗传算法与最复杂的基于梯度的RL方法是挺有竞争力的。我链接了下面的来源，如果你对强化学习感兴趣，我强烈建议你读一读。什么是

2020-06-21 14:07:00 1219

原创沃尔玛的产品知识图谱

作者|Karthik Deivasigamani编译|VK来源|Medium介绍电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴（销售商、供应商、品牌）提供的数据往往不完整，有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范（一种发送产品数据的约定格式），但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外，互联网上还有许多非结构化数据，如产品手册、产品评论、博客、社交媒体网站等。沃尔玛正致力于构建一个零售图谱(Retail Graph)，捕捉有关产品

2020-06-20 13:01:20 2347

原创使用OpenCV进行实时车道检测

作者|ABHISHEK SHARMA编译|VK来源|Analytics Vidhya大约十年前，当谷歌的人还在试验一辆原型车时，我预见了自己的第一辆自动驾驶汽车。当时我立刻被这个想法迷住了。不可否认，我不得不等待一段时间，直到这些概念向社区开放，现在看来等待确实是值得的！我最近试验了一些与计算机视觉有关的自动驾驶汽车概念，里面包括车道检测。想想看，它实际上是设计任何一款自主汽车的核心概念。以下是我们将在本视频中构建的车道检测系统：https://youtu.be/sYhZbhT-Smw很酷，对吧

2020-06-19 12:54:27 2624 1

原创决策树和随机森林

作者|PRATEEK JOSHI编译|VK来源|Analytics Vidhya决策树与随机森林的简单类比让我们从一个思维实验开始，它将说明决策树和随机森林模型之间的区别。假设银行必须为客户批准一笔小额贷款，而银行需要迅速做出决定。银行检查此人的信用记录和财务状况，发现他们还没有偿还旧贷款。因此，银行拒绝了申请。但问题是，对于银行庞大的金库来说，贷款数额非常小，他们本可以在非常低风险的情况下批准贷款。因此，银行失去了赚钱的机会。现在，又一个贷款申请将在几天内完成，但这一次银行提出了一个不同的策

2020-06-18 20:23:38 2042 1

原创 6个开源数据科学项目

作者|PRANAV DAR编译|VK来源|Analytics Vidhya概述利用这段时间，用这些顶级的开源项目来制作你的数据科学简历从Facebook AI的计算机视觉框架到OpenAI的GPT-3模型，我们涵盖了广泛的开源数据科学项目介绍 “到目前为止，你完成了多少数据科学项目？”这是面试者在数据科学面试中经常问的问题。我曾进行了几次这样的面试。这个问题基本上开门见山就会询问。如果你是一个数据科学的新手，尤其需要注意仅仅学习课程或获得证书是不够的。我认识的几乎每个人都持有数

2020-06-18 12:43:46 1616

原创机器学习：梯度下降

作者|Renu Khandelwal编译|VK来源|Medium什么是梯度下降?梯度下降法是一种减少成本函数的迭代机器学习优化算法，使我们的模型能够做出准确的预测。成本函数(C)或损失函数度量模型的实际输出和预测输出之间的差异。成本函数是一个凸函数。为什么我们需要梯度下降?在神经网络中，我们的目标是训练模型具有最优的权值(w)来进行更好的预测。我们用梯度下降法得到最优权值。如何找到最优的权值?这可以用一个经典的登山问题来最好地解释。在登山问题中，我们想要到达一座山的最低点，而我们的能

2020-06-17 18:54:40 928

原创 Python中的数据结构

作者|ANIRUDDHA BHANDARI编译|VK来源|Analytics Vidhya概述在深入研究数据科学和模型构建之前，Python中的数据结构是一个需要学习的关键概念了解Python提供的不同数据结构，包括列表、元组等介绍数据结构听起来是一个非常直截了当的话题，但许多数据科学和分析的新手并不知道它是什么。当我询问这些人关于Python中不同的数据结构以及它们是如何工作的时，他们一片空白。Python是一种很容易学习的编程语言，但是我们需要先弄清楚我们的基本知识，然后再深入研

2020-06-17 14:00:52 2431 1

原创方差分析介绍(结合COVID-19案例)

作者|GUEST BLOG编译|VK来源|Analytics Vidhya介绍 “事实是每个人都相信的简单陈述。也就是事实是没有错的，除非它被人发现了错误。假设有一个没人愿意相信的建议，那么它要直到被发现有效的时候才能成为事实。” –爱德华·泰勒我们正在应对一场空前规模的流行病。全世界的研究人员都在疯狂地试图开发一种疫苗或COVID-19的治疗方法，而医生们正试图阻止这种流行病席卷整个世界。我最近有了一个想法，把我的统计知识应用到这些大量COVID数据中。考虑这样一个场景：医生有四种医疗

2020-06-16 21:22:14 3294 1

原创使用片段嵌入进行文档搜索

作者|Ajit Rajasekharan编译|VK来源|Towards Data Science从文档中获取的句子片段的嵌入可以作为该文档的提取摘要方面，并可能加速搜索，特别是当用户输入是一个句子片段时。这些片段嵌入不仅比传统的文本匹配系统产生更高质量的结果,也是问题的内在驱动的搜索方法。现代向量化表示挑战创建有效的文档嵌入,捕捉所有类型的文档,使其通过使用嵌入在文档级别进行搜索。例如“蝙蝠是冠状病毒的来源”、“穿山甲中的冠状病毒”，由介词、形容词等连接一个或多个名词短语的短序列。这些突出显示的连

2020-06-16 00:09:30 363

原创详解支持向量机

作者|Anuj Shrivastav编译|VK来源|Medium介绍监督学习描述了一类问题，涉及使用模型来学习输入示例和目标变量之间的映射。如果存在分类问题，则目标变量可以是类标签，如果存在回归问题，则目标变量是连续值。一些模型可用于回归和分类。我们将在此博客中讨论的一种这样的模型是支持向量机，简称为SVM。我的目的是为你提供简单明了的SVM内部工作。假设我们正在处理二分类任务。可能有无限多的超平面可以将这两个类分开。你可以选择其中任何一个。但是这个超平面能很好地预测新查询点的类吗？你不认为

2020-06-15 12:01:44 1765

原创使用NLP检测和对抗AI生成的假新闻

作者|MOHD SANAD ZAKI RIZVI编译|VK来源|Analytics Vidhya概述由AI生成的假新闻(神经假新闻)对于我们的社会可能是一个巨大的问题本文讨论了不同的自然语言处理方法，以开发出对神经假新闻的强大防御，包括使用GPT-2检测器模型和Grover（AllenNLP）每位数据科学专业人员都应了解什么是神经假新闻以及如何应对它介绍假新闻是当今社会关注的主要问题。它与数据驱动时代的兴起并驾齐驱，这并非巧合！假新闻是如此广泛，以至于世界领先的字典都试图以自己的方式与

2020-06-14 12:17:02 3158

原创 Detectron2 API 之 config | 十五

作者|facebookresearch编译|Flin来源|Githubdetectron2.config packageclass detectron2.config.CfgNode(init_dict=None, key_list=None, new_allowed=False)源代码：https://detectron2.readthedocs.io/_modules/detectron2/config/config.html#CfgNode基类： fvcore.common.confi

2020-06-13 11:59:05 1290

原创用Python可视化卷积神经网络

作者|FAIZAN SHAIKH编译|VK来源|Analytics Vidhya介绍深入学习中最具争议的话题之一是如何解释和理解一个经过训练的模型——特别是在医疗等高风险行业的背景下。“黑匣子”一词经常与深度学习算法联系在一起。如果我们不能解释模型是如何工作的，我们怎么能相信模型的结果呢？这是个合理的问题。以一个为检测癌症而训练的深度学习模型为例。这个模型告诉你，它99%确定它已经检测到癌症，但它并没有告诉你为什么或者如何做出这个决定。在核磁共振扫描中找到了重要线索吗？或者只是扫描上的污点被错误

2020-06-12 12:06:23 1727

原创六种用于文本分类的开源预训练模型

作者|PURVA HUILGOL编译|VK来源|Analytics Vidhya介绍我们正站在语言和机器的交汇处，这个话题我很感兴趣。机器能像莎士比亚一样写作吗？机器能提高我自己的写作能力吗？机器人能解释一句讽刺的话吗？我肯定你以前问过这些问题。自然语言处理（NLP）也致力于回答这些问题，我必须说，在这个领域已经进行了突破性的研究，促使弥合人类和机器之间的鸿沟。文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词，或者它能够在客户的评论中检测到客户对产品的满意程度，我们可以将这

2020-06-10 19:24:54 2376

原创 Detectron2 API 之 checkpoint | 十四

作者|facebookresearch编译|Flin来源|Githubdetectron2.checkpoint软件包class detectron2.checkpoint.Checkpointer(model: torch.nn.modules.module.Module, save_dir: str = '', *, save_to_disk: bool = True, **checkpointables)源代码：https://detectron2.readthedocs.

2020-06-08 20:03:31 1473

原创具有注意力机制的seq2seq模型

作者|Renu Khandelwal编译|VK来源|Towards Data Science在本文中，你将了解：为什么我们需要seq2seq模型的注意力机制？Bahdanua的注意力机制是如何运作的？Luong的注意力机制是如何运作的？什么是局部和全局注意力？Bahdanua和Luong注意力机制的关键区别什么是注意力，为什么我们需要seq2seq模型的注意力机制让我们考虑两个场景，场景一，你正在阅读与当前新闻相关的文章。第二个场景是你正在阅读准备考试。两种情况下的注意力水平是相同

2020-06-07 15:14:49 2051

原创 Detectron2 与其他库的兼容性 | 十三

作者|facebookresearch编译|Flin来源|Github与其他库的兼容性与Detectron的兼容性(和maskrcnn-benchmark)Detectron2解决了Detectron中遗留的一些遗留问题。结果,它们的模型不兼容：在两个代码库中以相同的模型权重运行推理将产生不同的结果。关于推断的主要区别是:现在, 当 width = x2-x1 和 height = y2-y1 时,更自然地计算带有角(x1,y1)和(x2,y2)的box的高度和宽度。在Detectron中,

2020-06-05 12:41:26 959

原创神经网络中的批标准化

作者|Emrick Sinitambirivoutin编译|VK来源|Towards Data Science训练学习系统的一个主要假设是在整个训练过程中输入的分布保持不变。对于简单地将输入数据映射到某些适当输出的线性模型，这种条件总是满足的，但在处理由多层叠加而成的神经网络时，情况就不一样了。在这样的体系结构中，每一层的输入都受到前面所有层的参数的影响(随着网络变得更深，对网络参数的小变化会被放大)。因此，在一层内的反向传播步骤中所做的一个小的变化可以产生另一层的输入的一个巨大的变化，并在最后改

2020-06-04 12:56:52 1924

TensorFlowNews

原创使用片段嵌入进行文档搜索

原创假设检验、Z检验与T检验

原创使用PyCaret构建机器学习模型

原创 Python图像处理

原创 NumPy教程

原创 NLP中的标识化

原创概率论的数学基础

原创用直方图和箱线图理解数据

原创神经网络简易教程

原创无梯度强化学习：使用Numpy进行神经进化

原创沃尔玛的产品知识图谱

原创使用OpenCV进行实时车道检测

原创决策树和随机森林

原创 6个开源数据科学项目

原创机器学习：梯度下降

原创 Python中的数据结构

原创方差分析介绍(结合COVID-19案例)

原创使用片段嵌入进行文档搜索

原创详解支持向量机

原创使用NLP检测和对抗AI生成的假新闻

原创 Detectron2 API 之 config | 十五

原创用Python可视化卷积神经网络

原创六种用于文本分类的开源预训练模型

原创 Detectron2 API 之 checkpoint | 十四

原创具有注意力机制的seq2seq模型

原创 Detectron2 与其他库的兼容性 | 十三

原创神经网络中的批标准化

原创 Detectron2 基准测试 | 十二

原创 Detectron2 部署 | 十一

原创利用LDA和主题模型发现9种冠状病毒研究趋势

mysql-connector-java-5.1.24.zip

php典型模块与项目实战大全书中源码

空空如也