算法学习者-CSDN博客

转载 Deep Learning for Video Classification and Captioning

Deep Learning for Video Classification and CaptioningZuxuan Wu, Ting Yao, Yanwei Fu, Yu-Gang Jiang(Submitted on 22 Sep 2016)Accelerated by the tremendous increase in Internet bandwidth a

2017-06-11 10:11:48 1602

转载 End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering

End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question AnsweringYoungjae Yu, Hyungjin Ko, Jongwook Choi, Gunhee Kim(Submitted on 10 Oct 2016 (v1), last revised 13 De

2017-06-11 10:09:52 1285

转载 Spatio-Temporal Attention Models for Grounded Video Captioning

Spatio-Temporal Attention Models for Grounded Video CaptioningMihai Zanfir, Elisabeta Marinoiu, Cristian Sminchisescu(Submitted on 17 Oct 2016 (v1), last revised 18 Oct 2016 (this version, v

2017-06-11 10:08:32 1153

转载 Multimodal Memory Modelling for Video Captioning

Multimodal Memory Modelling for Video CaptioningJunbo Wang, Wei Wang, Yan Huang, Liang Wang, Tieniu Tan(Submitted on 17 Nov 2016)Video captioning which automatically translates video cli

2017-06-11 10:05:59 1038

转载 Video Captioning with Transferred Semantic Attributes

Video Captioning with Transferred Semantic AttributesYingwei Pan, Ting Yao, Houqiang Li, Tao Mei(Submitted on 23 Nov 2016)Automatically generating natural language descriptions of videos

2017-06-11 10:02:34 1148

转载 Hierarchical Boundary-Aware Neural Encoder for Video Captioning

Hierarchical Boundary-Aware Neural Encoder for Video CaptioningLorenzo Baraldi, Costantino Grana, Rita Cucchiara(Submitted on 28 Nov 2016 (v1), last revised 10 Apr 2017 (this version, v3))

2017-06-11 10:00:17 803

转载 Video Captioning with Multi-Faceted Attention

Video Captioning with Multi-Faceted AttentionXiang Long, Chuang Gan, Gerard de Melo(Submitted on 1 Dec 2016)Recently, video captioning has been attracting an increasing amount of interes

2017-06-11 09:58:45 1143

转载 Multimodal Compact Bilinear Pooling for Multimodal Neural Machine Translation

Multimodal Compact Bilinear Pooling for Multimodal Neural Machine TranslationJean-Benoit Delbrouck, Stephane Dupont(Submitted on 23 Mar 2017)In state-of-the-art Neural Machine Translatio

2017-06-11 09:42:55 803

转载 Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual GroundingAkira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, Marcus Rohrbach(Submitted on 6

2017-06-11 09:42:30 1398

转载阅读笔记（Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding)

转载请注明出处：西土城的搬砖工论文链接：Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding来源：EMNLP（2016）关键词：Multimodal Compact Bilinear(MCB)，VQA问题：对于像视觉问答系统、视觉定位系统这样Multi

2017-06-11 09:37:36 2609

转载基于深度学习的VQA（视觉问答）技术

深度学习大讲堂致力于推送人工智能，深度学习方面的最新技术，产品以及活动。请关注我们的知乎专栏！视觉问答导读视觉问答（Visual Question Answering，VQA），是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下： A VQA system takes as input an image and a free-form, open-ended, nat

2017-06-08 23:20:14 15700 1

转载 DBoW2 回环检测/重定位算法解析

简介ORB-SLAM 和 Kintinuous 都使用 DBoW2 作为回环检测算法，这里对 DBoW2 算法做简要介绍。DBoW2 论文中使用的特征检测算法是 Fast keypoint，见论文 “Machine learning for high speed corner detection” 使用的特征描述子是 Brief 描述子，见论文 “Brief: Binary r

2017-06-07 10:12:08 2412

转载 ubuntu 14.04 64位安装Opencv3.1.0 （包含opencv_contrib模块）

写在前边：据官方说法，目前还不是太稳定的算法模块都在opencv_contrib里边，由于不稳定，所以不能在release版本里发行，只有在稳定以后才会放进release里边。但是这里边有很多我们经常要用的算法，比如SIFT，SURF等（在xfeatures2d 模块里边）。官网提供了说明，可以把opencv_contrib扩展模块添加编译到已安装的opencv3.0.0里边，也可以安装的

2017-06-07 09:15:12 1101

转载 MFCC 梅尔频率倒谱系数

推荐到我的主页 http://www.poodar.me去查看相关信息。TERM: MFCC 梅尔频率倒谱系数在任何的自动语音识别系统中，第一步一般都是提取特征，也就是识别出音频信号的组成部分，哪些部分有利于我们识别语义内容，从而舍弃掉其他不相关的信息，比如背景噪音，情绪等等。关于语音，我们首先需要了解的是一个人发出的声音是由人产生的声音是由包括舌，牙齿等vocal t

2017-06-04 19:39:17 3300

转载业界 | 摩根大通报告12个亮点总结：金融领域的机器学习工具有哪些？

选自eFinancialCareers作者：Sarah Butcher机器之心编译参与：李泽南、吴攀金融机构由于面临激烈的竞争压力，需要不断对自身结构和人才资源进行迭代，以适应不断变化的新情况。随着微软前首席科学家邓力宣布加盟对冲基金巨头 Citadel，我们可以看到金融界已经向计算机科学（特别是机器学习）人才打开了大门。近日，摩根大通发布了一份题为《大

2017-06-04 18:00:29 3643

转载不是你无法入门自然语言处理（NLP），而是你没找到正确的打开方式

AI研习社按：本文作者 Mr.Scofield，原文载于作者个人博客，雷锋网已获授权。〇、序之前一段时间，在结合深度学习做 NLP 的时候一直有思考一些问题，其中有一个问题算是最核心一个：究竟深度网络是怎么做到让各种 NLP 任务解决地如何完美呢？到底我的数据在 NN 中发什么了什么呢？并且，不少的 terms like：词向量、word embedding、分布式表示、

2017-06-04 17:19:37 5440

转载 Linux 引导过程内幕

从主引导记录到第一个用户空间应用程序的指导引导 Linux® 系统的过程包括很多阶段。不管您是引导一个标准的 x86 桌面系统，还是引导一台嵌入式的 PowerPC® 机器，很多流程都惊人地相似。本文将探索 Linux 的引导过程，从最初的引导到启动第一个用户空间应用程序。在本文介绍的过程中，您将学习到各种与引导有关的主题，例如引导加载程序、内核解压、初始 RAM 磁盘以及 L

2017-06-04 12:14:25 665

转载 Linux 内核剖析

Linux® 内核是一个庞大而复杂的操作系统的核心，不过尽管庞大，但是却采用子系统和分层的概念很好地进行了组织。在本文中，您将探索 Linux 内核的总体结构，并学习一些主要的子系统和核心接口。您还可以通过其他 IBM 文章的链接更深入地进行学习。由于本文的目标是对 Linux 内核进行介绍并探索其体系结构和主要组件，因此首先回顾一下 Linux 的简短历史，然后从较高的层

2017-06-04 11:45:40 663

转载【opencv3.0】鱼眼图像畸变校正——标定校正

前两天发表的时候没注意，代码出了点错误，所以修改了一下，重新发上来。参考： http://docs.opencv.org/3.0.0/db/d58/group__calib3d__fisheye.html#gga91b6a47d784dd47ea2c76ef656d7c3dca0899eaa2f96d6eed9927c4b4f4464e05 http://docs.opencv.or

2017-06-04 10:25:38 5351 1

转载深度学习与计算机视觉系列(8)_神经网络训练与注意点

2017-05-26 22:34:37 1753

转载无人驾驶刚刚开始的未来

本文是无人驾驶技术系列的第12篇，也是最后一篇（文末汇总了无人驾驶系列文章）。本文梳理总结了前面11篇涉及到的技术点，尝试呈现一个宏观的无人驾驶系统架构。另外，简单分析了无人驾驶的产业链现状以及根据笔者自己的经验提出了一些给开发者、创业者，以及投资者的建议。无人驾驶技术总结无人驾驶是一个复杂的系统，如图1所示，系统主要由三部分组成：算法端、Client端和云端。其中算法端包括面向传

2017-05-26 21:48:23 4497 1

转载 Exploring Sparsity in Recurrent Neural Networks

Exploring Sparsity in Recurrent Neural NetworksSharan Narang, Gregory Diamos, Shubho Sengupta, Erich Elsen(Submitted on 17 Apr 2017)Recurrent Neural Networks (RNN) are widely used to sol

2017-05-26 16:02:29 1041

转载 FASHION DNA: STRUCTURAL FEATURE MAPPING IN THE WORLD OF RETAIL

Image source: Zalando ResearchWhen applying artificial intelligence to the world of fashion, in which the clothing and other articles involved have many varying individual properties, a meaningful

2017-05-26 16:00:39 799

转载 Taming Recurrent Neural Networks for Better Summarization

This is a blog post about our latest paper, Get To The Point: Summarization with Pointer-Generator Networks, to appear at ACL 2017. The code is available here.The internet age has brought unfath

2017-05-26 15:58:24 1015

转载比较OpenBLAS，Intel MKL和Eigen的矩阵相乘性能

对于机器学习的很多问题来说，计算的瓶颈往往在于大规模以及频繁的矩阵运算，主要在于以下两方面：(Dense/Sparse) Matrix – Vector product(Dense/Sparse) Matrix – Dense Matrix product如何使机器学习算法运行更高效摆在我们面前，很多人都会在代码中直接采用一个比较成熟的矩阵运算数学库，面对繁多的数学库，选择一个合适

2017-05-26 00:29:32 13695 2

转载【学习】视觉SLAM资源集锦

摘要转自：爱可可-爱生活The list of vision-based SLAM / Visual Odometry open source projects, libraries, dataset, tools, and studies IndexLibrariesDatasetToolsProjectsLearn

2017-05-25 23:14:09 1181

转载隐马尔科夫模型-基本模型与三个基本问题

隐马尔科夫模型-基本模型与三个基本问题这次学习会讲了隐马尔科夫链，这是一个特别常见的模型，在自然语言处理中的应用也非常多。常见的应用比如分词，词性标注，命名实体识别等问题序列标注问题均可使用隐马尔科夫模型.下面，我根据自己的理解举例进行讲解一下HMM的基本模型以及三个基本问题，希望对大家理解有帮助~1隐马尔科夫模型定义隐马尔可夫模型是关于时序的概率模

2017-05-25 23:13:09 3747

转载【学习】QA相关资源/数据集/论文列表

摘要转自：爱可可-爱生活PapersMemory NetworksEnd-To-End Memory NetworksTowards AI-Complete Question Answering: A set of prerequisite toy tasksLarge Scale simple question answerin

2017-05-25 23:12:03 3790 2

转载【推荐】文本处理的卷积方法

摘要转自：爱可可-爱生活tl;drRNNS work great for text but convolutions can do it fasterAny part of a sentence can influence the semantics of a word. For that reason we want our network to se

2017-05-25 23:10:35 1451

转载【论文】CVPR 2017论文：基于网格的运动统计，用于快速、超鲁棒的特征匹配（附代码）

摘要　　转自：视觉机器人　　现在，机器学习的趋势从传统方法中的简单模型 + 少量数据（人工标　　一种视频的快速搜索技术，比SIFT还厉害。基于网格的运动统计，用于快速、超鲁棒的特征匹配（办公椅演示），论文《Grid-based Motion Statistics for Fast, Ultra-robust Feature Correspondence》将平滑度约束引入特征

2017-05-25 23:09:17 4370

转载全卷积网络（FCN）与图像分割

从图像分类到图像分割卷积神经网络（CNN）自2012年以来，在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。CNN的强大之处在于它的多层结构能自动学习特征，并且可以学习到多个层次的特征：较浅的卷积层感知域较小，学习到一些局部区域的特征；较深的卷积层具有较大的感知域，能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低，从而有助于识别性能的提高。

2017-05-25 22:49:44 1858

转载 tensorflow git 包含多种算法模型的实现

https://github.com/carpedm20

2017-05-25 20:02:31 1183

转载 pytorch-tutorial

https://github.com/yunjey/pytorch-tutorialThis repository provides tutorial code for deep learning researchers to learn PyTorch. In the tutorial, most of the models were implemented with less

2017-05-25 19:53:38 2918

转载 PyTorch在64位Windows下的Conda包

昨天发了一篇PyTorch在64位Windows下的编译过程的文章，有朋友觉得能不能发个包，这样就不用折腾了。于是，这个包就诞生了。先别急着激动。如果要直接使用的话，你需要满足以下条件：Anaconda3 (with Python 3.6)Windows 10 64位系统（其他未测试）CUDA 8.0.61cuDNN 5.1.10及以上Compute Capability 6.1及

2017-05-25 19:48:22 5362 1

转载人脸识别主要算法原理

最新人工智能论文：http://paperreading.club人脸识别主要算法原理主流的人脸识别技术基本上可以归结为三类，即：基于几何特征的方法、基于模板的方法和基于模型的方法。1.基于几何特征的方法是最早、最传统的方法，通常需要和其他算法结合才能有比较好的效果；2.基于模板的方法可以分为基于相关匹配的方法、特征脸方法、线性判别分析方法、奇异值分解方法、神经网络方法、动态连接匹...

2017-05-25 19:35:18 109686 6

转载支持向量机（SVM）、支持向量回归（SVR）

1、支持向量机（ SVM ）是一种比较好的实现了结构风险最小化思想的方法。它的机器学习策略是结构风险最小化原则为了最小化期望风险，应同时最小化经验风险和置信范围）支持向量机方法的基本思想：（ 1 ）它是专门针对有限样本情况的学习机器，实现的是结构风险最小化：在对给定的数据逼近的精度与逼近函数的复杂性之间寻求折衷，以期获得最好的推广能力；（ 2 ）它最终解决的是一个凸二次规

2017-05-25 19:30:25 5110

原创配置Speech-to-Text-WaveNet

https://github.com/buriburisuri/speech-to-text-wavenet1. 为了不和之前环境冲突，我们使用python virtualenv安装tensorflowpip install virtualenvmkdir tensorflowvirtualenvtensorflow --no-site-packages

2017-05-21 23:13:44 4417

转载 Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art

Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-ArtJoel Janai, Fatma Güney, Aseem Behl, Andreas Geiger(Submitted on 18 Apr 2017)Recent years have witnessed a

2017-05-20 23:43:16 1471

转载 Caffe for FlowNet2

https://github.com/lmb-freiburg/flownet2This is the release of:the CVPR 2017 version of FlowNet2.0It comes as a fork of the caffe master branch and with trained networks, as well as exam

2017-05-20 23:41:29 3203 1

转载 Effective Approaches to Attention-based Neural Machine Translation

Abstract:An attentional mechanism has lately been used to improve neural machine translation (NMT) by selectively focusing on parts of the source sentence during translation. However, there has be

2017-05-20 17:08:01 1006

directshow_SDK开发笔记

空空如也