2020年06月_秃然变强了

原创动态规划和递归算法

假定有一个LeetCode题目1. 使用递归算法我们需要判断改题目是否由多个子任务组成，可以嵌套成递归的形式，在这一步我们往往需要一个递归表达式。当有中间状态时有时候我们在处理路径搜索，有中间状态如状态矩阵时，我们需要设定一个容器存储中间状态的数值。一般我们会设定一个与初始矩阵同等大小的矩阵作为容器。更新路径的信息。2.使用动态规划Dynamic Programming动态规划是一种多阶段决策最优解的模型，一般用以求最值。可用于自下而上的递推求解。使用动态规划要满足三个条件：多阶段决策最

2020-06-14 23:36:46 1336

原创深度学习NLP-词向量篇（含代码实现）

本文是最近学习了斯坦福大学的NLP课程CS224N，和一些相关教程后，整理出来的一篇关于词向量的学习笔记。主要记录了关于词向量的产生，关于计数的词向量生成法，基于分布的词向量生成法（Cbow，Skip-gram，GloVe），和一些相关知识。一、词嵌入的简介语言模型在计算机学科里，一个语言模型往往指的是使用一种知识表达的方法，通过计算一个单词/句子产生的概率来表达一种语言规律。传统的语言模型中词的表示是原始的、面向字符串的。两个语义相似的词的字符串可能完全不同，比如“番茄”和“西红柿”。这给所有NLP

2020-06-14 23:16:25 3668

原创知识图谱与文本生成

文本生成在自然语言处理领域一直属于热门研究领域。生成文本任务比信息抽取和文本分类等问题要更加困难，收到了学界的广泛关注。受到深度神经网络的影响，许多文本生成模型模型被研发，有基于机器翻译的Seq2Seq框架，有纯数据驱动模型，也有融合了知识图谱信息的知识驱动模型。本文介绍的是一些融合了知识图谱信息的知识驱动文本生成模型。几个Seq2Seq文本生成框架Pointer Networks本文试图利用seq2seq处理特定的序列问题。我们已经提到，传统seq2seq结构的输出由类似词汇表的某个元素映射表确定，

2020-06-13 15:26:42 6280

原创自然语言处理中的小样本数据问题-数据增强与半监督学习模型

本文借鉴了NLP中的少样本困境问题探究，记录读后笔记和感想。目标：我们希望采取相关数据增强或弱监督技术后在少样本场景下，比起同等标注量的无增强监督学习模型，性能有较大幅度的提升；在少样本场景下，能够达到或者逼近充分样本下的监督学习模型性能；在充分样本场景下，性能仍然有一定提升；一、NLP文本增强文本增强根据是否依据文本的标签做数据增强分为无条件的文本增强，和有条件的文本增强。无条件文本增强词汇短语替换：基于词典的同义词替换（EDA：Easy Data Augmentation），基

2020-06-11 14:19:04 5478

原创知识图谱与问答系统-论文分享两则

论文一：Improving Question Generation with Sentence-level Semantic Matching and Answer Position Inferring论文链接：https://arxiv.org/pdf/1912.00879.pdf本文主要聚焦问答系统（Q&A）的反问题—问题生成（Question Generation，Q&G）。问题生成的目的是在给定上下文和相应答案的情况下生成语义相关的问题，问题生成任务可分为两类：一类是基于规则的方

2020-06-10 16:27:26 2018

原创知识图谱的构建与质量评估

本文由知识图谱的结构构建，实体抽取，实体关系和属性抽取，知识图谱评估，知识图谱精炼六个部分组成。一、知识图谱构建知识图谱在目前知识体系中的三种组织分类：Ontology:树状结构，关系是严格的IsA关系，便于知识推理，但没法表达出概念和关系的多样性Taxonomy:树状结构，关系包含一般的上位词-下位词关系（Hypernym-Hyponym），关系的丰富影响了知识推理的难度，易造成歧义。Taxonomy也是我们当前最常用的知识图谱分类方法。Folksonomy:非层级的结构，全部节点以标签分类，

2020-06-07 15:14:01 13497

原创基于BERT的多模态应用：图像，视频如何通过BERT处理

基于BERT的多模态应用：图像，视频如何通过BERT处理本次分享的是结合了预训练的语言模型BERT和视觉方面的结合。1. VideoBERT: A Joint Model for Video and Language Representation Learning视频+文本的训练方法通过automatic speech recognition （ASR）模块和vector quantization（VQ）模块，加上BERT形成整个模型。其中ASR模块是用来识别语音的神经网络模块，用来将视频中的语音翻

2020-06-03 22:16:51 4135

原创知识图谱在人工智能中的应用与思考

知识图谱在人工智能中的应用与思考1. 人工智能是为了解决生产力升级的问题人类的生产力可以分为知识生产力，劳动生产力。人工智能可以从两个方面加速生产力的提升。人工智能又可以分为感知型智能，认知性智能，行为智能。一般来讲，计算机视觉识别，语音识别等识别问题都可以归结到感知性智能中。认知性智能包含自然语言理解（NLU），自然语言生成（NLG），知识推理（reasoning）等领域。行为智能主要聚焦在智能体的行动上，一般指的是具有感知和认知能力的机器人的行为。2.人工智能的”三个主义“现代的人工智

2020-06-03 21:35:12 4186 1

原创几个与BERT相关的预训练模型分享-ERNIE，XLM，LASER，MASS，UNILM

基于Transformer的预训练模型汇总1. ERNIE: Enhanced Language Representation with Informative Entities（THU）特点：学习到了语料库之间得到语义联系，融合知识图谱到BERT中，本文解决了两个问题，structured knowledge encoding 和 Heterogeneous Information Fusion（如何融合语言的预训练向量空间和知识表征的向量空间）因此，本文提出了同时在大规模语料库和知识图谱上预训练语

2020-06-03 20:32:45 2150

原创图像数据增强读书笔记

A Survey on Image Data Augmentation for deep learningRef:1. A survey on Image Data Augmentation for Deep Learning2. Generative Adversarial Network in Medical Imaging- A Review1. 目的是解决过拟合问题常用方法有：Dropout Batch normalization 等正则化方法Transfer learning, p

2020-06-02 21:52:37 1756

jxsdq的博客