2020年07月_fond_dependent

原创由浅入深尝试图书分类任务实战（特征工程+GBDT、机器学习模型、深度学习模型）

引言在本项目中，我们主要来解决文本单标签的任务。数据源来自于京东电商，任务是基于图书的相关描述和图书的封面图片，自动给一个图书做类目的分类。这种任务也叫作多模态分类。在这个实战中，我掌握学习到以下的代码实践：文本特征提取：任何建模环节都需要特征提取的过程，你将会学到如何使用 tfidf、wor2vec、FastText 等技术来设计文本特征。图片特征提取：由于项目是多模态分类，图片数据也是输入信号的一部分。你可以掌握如何通过预训练好的 CNN 来提取图片的特征，并且结合文本向量一起使用。

2020-07-31 16:32:36 9656 17

原创 Syntax- and Execution-Aware SQL Generation with Reinforcement Learning （记EMNLP2019一次投稿）

引言我们那一篇ACL2019的论文简单介绍了什么叫做Text-to-SQL任务，文本到SQL任务的目的是将自然语言语句映射为结构化的SQL查询。很多工作都是关注于如何生成一个SQL语句，而没有关注怎样可以更高效的利用数据库信息以及SQL模板来指导SQL的生成。前人有一个工作是Execution-Guided Decoding，核心思想是使用部分程序的执行结果来筛选过滤出无法完成的结果以获得正确答案（见下图）。我们在这次工作中在考虑知识库结构（ knowledge bases ）和SQL查询语法（synta

2020-07-28 19:25:39 2408

原创 Transition-based Graph Generation For Text-to-SQL Task 文本生成SQL（记ACL2019一次投稿）

引言

2020-07-23 18:38:21 4544 4

原创日常遇到的小问题(更新到 2020/09/01)

为什么FastText没有考虑语序，然而效果仍然很好？FastText其实也是用了一种词袋模型，语序的特征确实没有考虑，不过鉴于CNN在文本分类的表现也比较优秀，对于分类任务，我觉得上下文的特征还是比语序的特征更加重要。如何理解LDA VS PLSAPLSA中，主题分布和词分布都是唯一确定的。但是，LDA的作者们采用的是贝叶斯派的思想，认为它们应该服从一个分布，所以主题分布和词分布是不确定的。这里相当于抛硬币，对于PLSA，所以这个参数是固定的唯一的；而贝叶斯学派（LDA）看来事实上有很多很多硬币

2020-07-27 17:55:51 413

原创 Pointer Network指针网络

Why Pointer NetworkStructure of Pointer NetworkHow to process language generation by incorporating Pointer NetworkGet To The Point: Summarization with Pointer-Generator NetworksCopyNetProduct abstract generation through pointer network

2020-07-25 11:19:07 17546 4

原创 LDA文本主题模型的学习笔记

引言LDA简介一些你需要了解的数学知识如何理解LDALDA的一些参数设计如何求解LDA（Gibbs Sampling和变分推断）PLSA 和 LDA 的区别

2020-07-24 23:32:08 5205 2

原创深入浅出语言模型（四）——BERT的后浪们（RoBERTa、MASS、XLNet、UniLM、ALBERT、TinyBERT、Electra）

引言上一节我们讲到了BERT，如果要用一句时下正流行的话来形容 BERT 的出现，这句话大概再恰当不过：一切过往，皆为序章。 Bert出现之后，研究者们开始不断对其进行探索研究，提出来各式的改进版，再各类任务上不断超越Bert。针对Bert的改进，主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。上一章说了BERT模型存在一些缺点。所以，AR方式所带来的自回归性学习了预测 token 之间的依赖，这是

2020-07-22 10:29:10 4210

原创深入浅出语言模型（三）——语境化词向量表示（CoVe、ELMo、ULMFit、GPT、BERT）

引言上一节我们讲到了什么叫做静态词向量，静态词向量有个很大的特点就是每个词的表示是固定的，这样就不能解决我们人类语言中的一词多义问题，例如“I hurt my back, while I backed my car”，这句话中前一个"back"是一个名词，表达“后背”的意思；后一个“back”是动词，表达“倒车”的意思。所以这两个词向量应该是不一样的，应该考虑上下文来确定某个词在一个句子中表达什么意思，这样上下文词向量，也叫语境化词向量就应运而生了。Contextualized Embedding(语境

2020-07-21 11:09:00 6757 5

原创深入浅出语言模型（二）——静态语言模型（独热编码、Tf-idf、word2vec、FastText、glove、Gussian Embedding、Pointcare Embedding ）

引言上一节讲述了我们的语言模型，什么是语言模型以及如何得到语言模型还有一些语言模型有趣的应用。对于我们一句话来说，我们需要对其进行特征表示。通俗点来说就是要将其转换成一个向量的形式。那么我们如何将一个句子或者一个词语转化成向量呢，这就是我们今天所要学习的内容——词向量，当我们得到词向量后，我们就可以对一个句子进行特征工程从而得到句子的特征表示。静态词向量static embedding独热编码独热编码是最古老的一种词向量的编码形式，简单来说就是一种0-1表示。对于某个单词，去词库里寻找这个单词所对应

2020-07-20 16:48:53 7139 5

原创深入浅出语言模型（一）——语言模型及其有趣的应用

引言词向量模型应该是任何一个NLP工程师都应该掌握的基础。还记得17年刚在实验室实习开始接触时，大家都一直在用word2vec。到了18年在公司实习时，实验大多基于glove模型。到了现在Bert大热，各种基于Bert的词向量模型层出不穷，在各个任务各显神威。最近由系统的学习了下词向量模型，发现其实每个词向量背后都蕴藏着很直观的思想或者很优美的数学推理，我相信对我们现在一些任务都会有启发。在这里记录一些自己的学习心得，如有不当之处，还望指教，多多交流。在这个(一）里主要记录的是一些词向量的远古模型。包括

2020-07-09 16:20:57 3148 2

原创 Efficient Large-Scale Multi-Modal Classification 多模态学习论文阅读

引言多模态问题我们应该不会陌生。Efficient Large-Scale Multi-Modal Classification（AAAI2018）摘要早期的互联网主要是基于文本的，但现代数字世界正变得越来越多模式。这里，我们研究多模态分类，其中一个模态是离散的，例如文本；而另一个是连续的，例如从卷积神经网络传输的视觉表示。我们关注的场景是，我们必须能够快速地对大量数据进行分类。研究了实现多模态融合的各种方法，并分析了它们在分类精度和计算效率方面的优缺点。我们的研究结果表明，即使使用简单的融合方法，

2020-07-02 09:50:10 1895

一个nlp探险者的博客