sparkexpert-CSDN博客

原创离群点异常检测及可视化分析工具pyod测试

找到了一个对Outlier Detection (Anomaly Detection) 异常值检测（异常检测）的比较好的工具（https://github.com/yzhao062/Pyod），该工具集成了多个算法。具体包括的算法如下：Model 1 Angle-based Outlier Detector (ABOD)Model 2 Cluster-based Local Outlie...

2018-07-25 08:48:04 7552

原创基于Dual Path Networks（DPN）的图像识别模型实践

图像识别模型已经非常多了，但是看到对于DPN的下面表述，动起了将它复现一下的念头：DPNs helped us won the 1st place in Object Localization Task in ILSVRC 2017, with all competition tasks within Top 3. (Team: NUS-Qihoo_DPNs)可见，DPN在2017的ILSVRC比...

2018-06-28 20:42:52 1874

原创 MxNet预训练模型到Pytorch模型的转换

预训练模型在不同深度学习框架中的转换是一种常见的任务。今天刚好DPN预训练模型转换问题，顺手将这个过程记录一下。核心转换函数如下所示：def convert_from_mxnet(model, checkpoint_prefix, debug=False): _, mxnet_weights, mxnet_aux = mxnet.model.load_checkpoint(checkpoi...

2018-06-28 20:28:30 4069 5

原创基于轨迹数据的伴随关系分析挖掘

轨迹数据分析是时空数据挖掘的重点内容之一，也是相当有挑战任务之一。伴随分析是轨迹数据的一种常见分析任务，但是伴随分析面临着三大挑战：摘自ICDM2013年论文Mining Following Relationships in Movement Data的表述：Challenge 1. The following time lag is usually unknown and varying. Fo...

2018-06-28 16:23:40 15192 3

原创基于深度学习的实现影像地图道路提取

2018-06-27 23:21:04 21497 29

原创 SoundNet：根据声音来识别场景环境实践

在https://projects.csail.mit.edu/soundnet/

2018-06-27 23:00:39 7439 9

原创视频生成（Generating Videos with Scene Dynamics）实践

视频生成与视频识别是视频分析的两大任务，前者侧重于对下一帧的预测，而前者则侧重于视频内容的理解。由于视频是由一系列的视频帧组成的，那么如果有大量的视频数据，通过分析视频中动态场景的变化情况，就可以合成出一些小的动态场景视频。这也是论文Generating Videos with Scene Dynamics(http://carlvondrick.com/tinyvideo/paper.pdf)的...

2018-06-27 21:06:11 6313 5

原创图像检索中的DELF模型（DEep Local Features）实践

IMAGE_1_URL = 'https://upload.wikimedia.org/wikipedia/commons/c/ce/2006_01_21_Ath%C3%A8nes_Parth%C3%A9non.JPG'IMAGE_2_URL = 'https://upload.wikimedia.org/wikipedia/commons/5/5c/ACROPOLIS_1969_-_panor...

2018-06-06 23:06:45 12720 12

原创 textgenrnn 文本生成实战

文本生成是一件很神奇的自然语言处理任务，深度学习给文本生成带来的全新的技术途径，如这篇文章The Unreasonable Effectiveness of Recurrent Neural Networks所讲的，是一种不可思议又高效的方式。textgenrnn就是采用RNN的方式来实现文本生成的一个简洁高效的库，代码量非常少，又非常易于理解。其架构是采用了LSTM＋Attention的方式来实...

2018-05-04 23:00:14 4953

原创文本生成统一框架Texygen实践

文本生成是自然语言理解的高级阶段，是实现类人智能的重要手段之一。Geek.AI在AAAI2018中推出了LeakGAN后，终于又推出了TexyGen这个开源文本生成框架。由于之前就想对leakgan深入地看一下，不过这回可以通过TexyGen这个框架来实现实现对近几年的所有文本生成模型的直接实现。目前其支持的模型如下：Implemented Models and Original PapersSe...

2018-05-03 09:29:02 3249 1

原创 AllenNLP系列文章之七：ELMO

　　在AllenNLP的主页上有个单独的菜单（http://allennlp.org/elmo），一直不太了解为何将它单列出来，主要在AllenNLP的许多任务中如文本蕴含里面等已经用到了这个模型所产生的词向量。　　1、论文原理　　从其主页上的介绍可知，该论文来自NAACL2018的论文。IntroductionELMo is a deep contextualized word represen...

2018-04-27 07:02:52 15600 1

原创 pytorch的开源对话框架ParlAI系统实践

　　最近抽点时间将ParlAI代码进行重构和调试之后，发现其代码设计风格类似于工厂模式，非常便于插入式开发，算是接触过的python代码框架中比较棒的一个。　　1、框架基本介绍在facebook的github官网（https://github.com/facebookresearch/ParlAI）上对其介绍为对话系统框架。即：ParlAI (pronounced “par-lay”) is a ...

2018-04-20 22:18:30 2491

原创图像地点场景类型识别(PlaceCNN)实践

　　从图像中判断图像场景所处的地点类型，是图像理解的一种常见任务。本质上场景类别标注数据足够的情况下，它可以属于图像分类的一种，因此直接利用现有成熟的网络架构如ResNet就可以实现较高精度的图像涉及场所的识别。　　本文实践采自：http://places2.csail.mit.edu/download.html 该数据集涵盖了365种图像场景，同时还提供了多种网络架构的预训练模型，主...

2018-04-20 21:18:39 24083 17

原创 StarGAN：支持多领域图像生成的生成对抗网络实践

GAN家族在CVPR2018时候迎来一个新强悍的成员，即：StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation 。从这个题目可以看出，它与之前的pix2pix等相比，能够支持一生多。1、论文原理　　GAN的基本框架都是G和D两个模型，一个生成模型，一个判别模型，那么为...

2018-04-17 09:12:09 3396

原创 tensorflow 语义分割系列DeepLabV3/V4实践

语义分割是图像高级别像素理解的主要任务之一，也是无人驾驶的重要技术基础。前面已经对该方面进行过复现实验，见：空洞卷积与DeeplabV2实现图像语义分割的测试（tensorflow)。近段时间，google又推出了deeplab v3及其升级版本(deeplab v3 plus)，并且集成到其model库中，因此，对该库进行集成测试一下。 DeepLab V1---&gt...

2018-04-16 16:12:58 7401 2

原创多语言文本到音素转换工具phonemizer实践

音素是语言识别领域的最小单元，文本到音素的转换是TTS任务（文本转语音）中重要的步骤之一，最近用了下python包（phonemizer），实践了下，觉得还挺有用的，因此记录一下过程。（1）　下载源码，https://github.com/bootphon/phonemizer（2）　进行源码的编译和查看，发现其调用的是festival and espeak/espeak-ng 两个系统的东西，即...

2018-04-16 12:52:49 5964 2

原创 tensorflow MobileNetV2的目标检测测试

　　谷歌近期又推出了下一代移动视觉应用 MobileNetV2 ，它在 MobileNetV1 的基础上获得了显著的提升，并推动了移动视觉识别技术的有效发展，包括分类、目标检测和语义分割。MobileNetV2 作为 TensorFlow-Slim 图像分类库的一部分而推出，同时也已经集成到目标检测的包中，同时重要的是提供了预训练模型。1、模型原理　　从论文的名字《MobileNetV2: Inv...

2018-04-11 17:14:40 5808

原创 AllenNLP系列文章之六：Textual Entailment（自然语言推理－文本蕴含）

自然语言推理是NLP高级别的任务之一，不过自然语言推理包含的内容比较多，机器阅读，问答系统和对话等本质上都属于自然语言推理。最近在看AllenNLP包的时候，里面有个模块：文本蕴含任务(text entailment)，它的任务形式是：给定一个前提文本（premise），根据这个前提去推断假说文本（hypothesis）与premise的关系，一般分为蕴含关系（entailment）和矛盾关系（c...

2018-04-11 09:23:34 19092 1

原创知识图谱的语义相似度计算框架Sematch实践

Sematch是一个用于知识图谱的语义相似性的开发、评价和应用的集成框架，其代码见github。 Sematch支持对概念、词和实体的语义相似度的计算，并给出得分。 Sematch专注于基于特定知识的语义相似度量，它依赖于分类( 比如 ) 中的结构化知识。深度、路径长度 ) 和统计信息内容( 语料库与语义图谱) 。其应用框架如下所示：从图中可见，其支持多样化、多层次的相似度计算。如其DEMO上...

2018-04-10 20:59:11 5931 1

原创 AllenNLP系列文章之五：语义角色标注

序列标注，是自然语言处理的基础工作，它广义上可以将分词、词性标注、实体识别、依存分析等NLP的基础工作都涵盖在内。序列标注问题是NLP中最常见的问题，因为绝大多数NLP问题都可以转化为序列标注问题，虽然很多NLP任务看上去大不相同，但是如果转化为序列标注问题后其实面临的都是同一个问题。所谓“语义角色标注”，它是句子分析的重要工具之一。语义角色标注（SRL）系统的目标是恢复一个句子的谓词-...

2018-04-09 21:59:41 3992

原创 AllenNLP系列文章之四：指代消解

指代消解是自然语言处理的一大任务之一，它是信息抽取不可或缺的组成部分。在信息抽取中，由于用户关心的事件和实体间语义关系往往散布于文本的不同位置，其中涉及到的实体通常可以有多种不同的表达方式，例如某个语义关系中的实体可能是以代词形式出现的，为了更准确且没有遗漏地从文本中抽取相关信息，必须要对文章中的指代现象进行消解。指代消解不但在信息抽取中起着重要的作用，而且在机器翻译、文本摘要和问答系...

2018-04-09 21:43:20 15094 10

原创 AllenNLP系列文章之三：机器阅读

机器阅读也是AllenNLP提供的功能模块之一。其Models介绍如下：Machine ComprehensionMachine Comprehension (MC) models answer natural language questions by selecting an answer span within an evidence text. The AllenNLP MC model ...

2018-04-08 21:09:35 1641

原创 AllenNLP系列文章之二：命名实体识别

命名实体识别是AllenNLP的核心模块之一。在官网上介绍如下：Named Entity RecognitionThe named entity recognition model identifies named entities (people, locations, organizations, and miscellaneous) in the input text. This model...

2018-04-06 21:52:56 4773 5

原创 AllenNLP系列文章之一：初识AllenNLP和代码重构

　　AllenNLP是一个相对成熟的基于深度学习的NLP工具包，它构建于 PyTorch 之上，它的设计遵循以下原则：（1）超模块化和轻量化。你可以使用自己喜欢的组件与 PyTorch 无缝连接。（2）经过广泛测试，易于扩展。测试覆盖率超过 90%，示例模型为你提供了很好的模板。（3）真正的填充和覆盖，让你可以毫无痛苦地轻松实现正确的模型。（4）易于实验。可以通过符合 json 规范的全面记录重...

2018-04-06 21:35:53 6985 4

原创 NasNet实践：图像识别领域最佳模型

　　谷歌最近推出的NasNet，是当前图像识别领域的最佳模型，近日对此模型进行复现了下，也大致了解了其原理。这个模型并非是人为设计出来的，而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”，即训练机器学习的软件来打造机器学习的软件，自行开发新系统的代码层，它也是一种神经架构搜索技术(Neural Architecture Search technology)...

2018-04-06 21:12:39 16910

原创基于CNN的图像超分辨率重建

　　图像尺寸变大且变清晰是图像处理的内在需求之一，然而现有的图像分辨率固定的情况下，从低分辨率到高分辨率的扩展常伴来了模糊、噪声的问题，即Single image super-resolution (SISR) aims to recover a high-resolution (HR) version of a low-resolution (LR) input.　因此深度学习架构下的图像超分辨...

2018-04-05 15:33:31 5809 2

原创基于CNN的图像增强之去模糊

图像模糊产生的原因非常多，主要如下：（1）相机抖动. □ 拍摄时相机不稳. □ 全部画面被模糊. （2）物体的运动. □ 部分物体运动. □ 不同区域模糊不同. （3）镜头失焦. □ 大光圈小景深时的效果. 等等。今天在看Learning Deep CNN Denoiser Prior for Image Restoration (CVPR, 2017) 的文章，里面涵盖的内容非常全，其中模糊...

2018-04-05 11:20:53 16455 5

原创基于CNN的图像滤境操作之去噪声

　　图像去噪声是图像增强、图像重建的重要内容之一，在现实中，很多图像难免存在噪声的问题，从而影响了图像的判别。当然图像去噪声在现有的图像处理软件中也比较成熟。　　找到了一篇基于CNN的图像去噪声的论文，FFDNet: Toward a Fast and Flexible Solution for CNN based Image Denoising，对其结果进行复现，效果挺不错的。特记录如下：　　在...

2018-04-05 10:19:56 7340 4

原创 ubuntu matlab中安装MatConvNet工具箱（支持GPU，mexcuda报错问题）

很早以前就装过MatConvNet，但是最近机器重启时发现要用到这个工具箱的时候却发现找不到了，只能重新安装了。MatConvNet is a MATLAB toolbox implementing Convolutional Neural Networks (CNNs) for computer vision applications. It is simple, efficient, and ...

2018-04-05 10:02:20 1469

原创基于Bidirectional AttentionFlow的机器阅读理解实践

机器阅读是实现机器认知智能的重要技术之一。机器阅读任务主要有两大类：完形填空和阅读理解。（1）完型填空类型的问答，简单来说就是一个匹配问题。问题的求解思路基本是：　　1）　获取文档中词的表示　　2）　获取问题的表示　　3）　计算文档中词和问题的匹配得分，选出最优（2）文本段类型的问答，与完型填空类型的问答，在思想上非常类似，主要区别在于：完形填空的目标是文档中的一个词，文本阅读理解的目标是文档中的...

2018-04-04 22:10:41 1632 1

原创基于mask-rcnn屏幕图像中指定对象

在很多场景条件下，会有意地将图像中的某些对象进行屏蔽删除处理，传统的抠图的办法需要用到专业的处理软件来处理。看到有基于mask-rcnn的方式来实现屏幕中指定对象的删除，挺有趣的。具体的方法步骤也非常简单：（1）利用mask-rcnn实现语义分割（2）对分割好的图像，对指定类型的图像对象（如人等）进行删除，可以删除一批同类对象，也可以删除指定类别对象中的某一个具体对象。实验测试如下：对上述原图进行...

2018-04-03 17:25:38 1159

原创 r-net机器阅读理解实践

斯坦福大学自然语言计算组发起的SQuAD（Stanford Question Answering Dataset）文本理解挑战赛并不陌生，它也被誉为“机器阅读理解界的ImageNet”。诸多来自全球学术界和产业界的研究团队都积极地参与其中，近期在机器阅读理解上已经取得了不小的突破，因此这两天刚好有时间，对里面涉及的一些开源框架进行学习一下。 SQuAD 数据集包含 10 万个

2018-01-23 16:57:26 6708 3

原创适用于大规模文档关键词抽取的利器(flashtext)

从文档中抽取关键词并对关键词相关的变体进行替换，是信息抽取中常用的做法之一，特别是基于规则词典的方法。常见的实现方式是基于正则表达式的方式，2017年的这篇文档介绍则实现了一种全新的算法及其实现原理：flashtext (Replace or Retrieve Keywords In Documents at Scale)。该方法的效率如下图所示：(时间效率上可以看出是一条平衡的直线，不随文档词的

2018-01-21 17:22:47 1748

原创 Python3.6安装sqlite3的终极解决办法（

最近重装了系统之后，发现原有的python3环境下安装sqlite3（见原来博客：ubuntu环境下 python 3.0以上版本对sqlite3的支持问题）的办法已经行不通了。即使安装了libsqlite-dev之后，仍然会报这样的错误：omnisky@omnisky:~/work/soft/Python-3.6.2$ pythonPython 3.6.2 (default, J

2018-01-21 10:27:47 30628 11

原创 StarSpace（embed all the things嵌入表示）编译和测试

StarSpace是Facebook开源的一个嵌入式表示的库，号称可以embed all things，可以学习任何实体的向量表示。其对应的文章为https://arxiv.org/pdf/1709.03856.pdf，对应的开源代码库为：https://github.com/facebookresearch/Starspace。　　如其主页上所介绍的，StarSpace可以学习到任何实体（单

2018-01-03 09:04:58 3360

原创 Python3环境下cleverhans对抗样本防护编译与测试（含FGSM攻击与ADV防护）

在看人工智能安全方面的资料，顺手看到cleverhans的资料，就将它在python 3.6的环境下进行编译和测试。在Ian Goodfellow的《Machine learning privacy and security》报告中才了解到cleverhans项目名字的由来：“一匹叫做 Clever Hans 的马。刚出现的时候人们认为这匹马会做算术，但实际上它只是会阅读人的表

2017-12-26 17:03:13 15111 7

原创 DeepFool（迷惑深度学习分类模型）测试

AI+网络安全是当前网络攻击与防御方向比较热门和前沿的领域。同时网络安全中的漏洞挖掘、入侵检测、异常流量等传统任务也已经出现了大量基于深度学习的实现方法。然而当以深度学习为主流的人工智能应用越来越广泛之后，陆续又出现了对于人工智能应用的攻击，主要分为两种：一是白盒测试，即深度学习的模型架构和参数都已经的情况下，这种场景的攻击一般可以进行参数的修改来达到攻击的效果；二是黑盒测试，即上述情况未知的情况

2017-12-26 11:45:10 10091 6

原创文本摘要评测工具ROUGE的搭建和测试

https://github.com/andersjo/pyrouge/tree/master/tools/ROUGE-1.5.5Cannot open exception db file for reading: data/WordNet-2.0.exc.dbcd pythonrouge/RELEASE-1.5.5/data/rm WordNet-2.0.e

2017-12-22 11:22:46 5590 3

原创 Toward Multimodal Image-to-Image Translation（BicycleGAN）图像一对多转换测试

CycleGAN、pix2pix、iGAN的主要贡献者最近在NIPS　2017上又推出了一篇文章Toward Multimodal Image-to-Image Translation（见https://junyanz.github.io/BicycleGAN/，https://arxiv.org/pdf/1711.11586.pdf），讨论如何从一张图像同时转换为多张风格不一成对的图像。

2017-12-21 13:22:42 6608 1

原创 Mask R-CNN（目标检测，语义分割）测试

Kaiming He的大作Mask R-CNN（https://arxiv.org/pdf/1703.06870.pdf）已经放出来一段时间了，最近才有空进行代码学习和编译。图像目标检测是图像识别的核心任务之一，之前就对这以方面进行总结和测试（http://blog.csdn.net/sparkexpert/article/details/71642431）。从上面的图可

2017-12-21 11:13:09 8025

空空如也

空空如也