NLP相关经典书籍和论文

最新推荐文章于 2024-05-10 10:51:49 发布

huangrs098

最新推荐文章于 2024-05-10 10:51:49 发布

阅读量1k

点赞数 1

分类专栏：自然语言处理nlp

原文链接：https://blog.csdn.net/huanghaocs/article/details/81160949

版权

自然语言处理nlp 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

经典书籍：

1 Speech and Language Processing

这个是NLP大牛Daniel Jurafsky的关于语音和语言处理的一本书，NLP领域非常经典的入门教程，语言通俗易通，实例简单形象。最近作者在写最新的第三版，要知道第二版是2008年完成的，最新版除了介绍传统的自然语言处理方法外，如贝叶斯分类、逻辑回归、TF-IDF等，也加入了最新的神经网络和深度学习一类方法，有介绍神经网络语言模型、问答系统、对话系统、机器翻译等。还有信息检索、实体链接分析等。现在第三版还没有完全写完，作者把已经完成的公开在网站上，可供下载。
网站主页：https://web.stanford.edu/~jurafsky/slp3/
网盘地址：链接：https://pan.baidu.com/s/16XaXdqCKWwtle-TATl3Nwg 提取码：expw

2 统计学习方法李航（第二版）

本书共分为监督学习和无监督学习两部分，共22章。
第一篇介绍了感知机、朴素贝叶斯法、决策树、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场等算法，它们都是非常经典的监督学习方法。第二篇主要讨论了聚类方法、奇异值分解、主成分分析、潜在语义分析、马尔可夫链蒙特卡罗法和潜在狄利克雷分配等算法，它们都是非常经典的无监督学习方法。

除有关统计学习、监督学习和无监督学习的概论和总结的四章外，每章介绍一种方法。叙述力求从具体问题或实例入手，由浅入深，阐明思路，给出必要的数学推导，便于读者掌握统计学习方法的实质，学会运用。
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

3 机器学习周志华

俗称西瓜书，对于很多初学者或者数学基础不是特别扎实的同学们来说，想要完整、清晰地弄懂这本书其实并不容易。
是一本较为全面的书籍，书中详细介绍了机器学习领域不同类型的算法(例如：监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等)
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

4 PRML中文版

《Pattern Recognition and Machine Learning》，中文译名《模式识别与机器学习》，简称 PRML。出自微软剑桥研究院实验室主任 Christopher Bishop 大神之手。
PRML 当之无愧算得上是 AI 领域的圣经了。PRML 涵盖面广，语言通俗，例子和习题更加详细，附带更多基础性的讲解和指引，难度梯度设置更为合理。包括机器学习，统计学，计算机科学，信号处理，计算机视觉，数据挖掘和生物信息学等。
第一章介绍
第二章概率分布
第三章线性回归模型
第四章线性分类模型
第五章神经网络
第六章内核方法
第七章稀疏内核机器
第八章图形模型
第九章混合模型和EM
第十章近似推断
第十一章采样方法
第十二章连续潜在变量
第十三章顺序数据
第十四章组合模型
链接：
https://www.080910t.com/wp-content/uploads/2020/03/PRML-Chinese-Edition.pdf
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

5 深度学习

麻省理工学院的《深度学习》（俗称：“花书”）则是一本初学者必读的深度学习书籍。它简明扼要的概括了深度学习中大部分重要主题，每当遇到深度学习概念时，都可以在书中找到参考，故被广大学员们誉为深度学习中的“圣经”教材。
本书的三位作者 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 一直耕耘于机器学习领域的前沿，在业内也具有非常大的知名度，引领了深度学习的发展潮流。
花书的内容包括3个部分：
第1部分：介绍基本的数学工具和机器学习的概念，它们是深度学习的预备知识；
第2部分：系统深入地讲解现今已成熟的深度学习方法和技术；
第3部分：讨论某些具有前瞻性的方向和想法，它们被公认为是深度学习未来的研究重点。
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

6 神经网络与深度学习

本书主要介绍神经网络与深度学习中的基础知识、主要模型（前馈网络、卷积网络、循环网络等）以及在计算机视觉、自然语言处理等领域的应用。全书共15章，可以作为一学期的课程进行讲授。作者是复旦大学老师邱锡鹏

第1章是绪论，介绍人工智能、机器学习、深度学习的概要，使读者对相关知识进行全面的了解。
第2、3章介绍了机器学习的基础知识。
第4、5、6章分别讲述三种主要的神经网络模型：前馈神经网络、卷积神经网络和循环神经网络。在第6章中略提了下图网络的内容。
第7章介绍神经网络的优化与正则化方法。
第8章介绍神经网络中的注意力机制和外部记忆。
第9章简要介绍了一些无监督学习方法。
第10章中介绍一些和模型独立的机器学习方法：集成学习、协同学习、多任务学习、迁移学习、终生学习、小样本学习、元学习等。这些都是目前深度学习的难点和热点问题。
第11章介绍了概率图模型的基本概念，为后面的章节进行铺垫。
第12章介绍两种早期的深度学习模型：玻尔兹曼机和深度信念网络。
第13章介绍最近两年发展十分迅速的深度生成模型：变分自编码器和对抗生成网络。
第14章介绍了深度强化学习的知识。
第15章介绍了应用十分广泛的序列生成模型。
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

7 百面机器学习

又称葫芦书
书中收录了超过100道机器学习算法工程师的面试题目和解答，其中大部分源于Hulu算法研究岗位的真实场景。本书从日常工作、生活中各种有趣的现象出发，不仅囊括了机器学习的基本知识，而且还包含了成为出众算法工程师的相关技能，更重要的是凝聚了笔者对人工智能领域的一颗热忱之心，旨在培养读者发现问题、解决问题、扩展问题的能力，建立对机器学习的热爱，共绘人工智能世界的宏伟蓝图。
“不积跬步，无以至千里”，本书将从特征工程、模型评估、降维等经典机器学习领域出发，构建一个算法工程师必-备的知识体系；见神经网络、强化学习、生成对抗网络等新科研进展之微，知深度学习领域胜败兴衰之著
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

论文或文章：

1 ELMO

Deep contextualized word representations
这篇文章发表在2018年的NAACL上
具体来讲如何使用ElMo产生的表征呢？对于一个supervised NLP任务，可以分以下三步:
1.产生pre-trained biLM模型。模型由两层bi-LSTM组成，之间用residual connection连接起来。
2.在任务语料上(注意是语料，忽略label)fine-tuning上一步得到的biLM模型。可以把这一步看为biLM的domain transfer。
3.利用ELMo的word embedding来对任务进行训练。通常的做法是把它们作为输入加到已有的模型中，一般能够明显的提高原模型的表现。
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

2 GPT

Improving Language Understanding by Generative Pre-Training
由OpenAI推出的，GPT训练任务使用的是单向语言模型，特征提取器使用的是Transformer，GPT预训练模型取自Transformer的decoder阶段，使用了Masked Multi-Head Attention，GPT在预训练阶段是无监督学习，通过大量预料进行训练，Fine-tuning阶段是有监督学习，GPT无监督预训练过程，单向语言模型通过上文预测当前词
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

3 attention is all you need

2017 年，Google 机器翻译团队发表的《Attention is All You Need》中，完全抛弃了RNN和CNN等网络结构，而仅仅采用Attention机制来进行机器翻译任务，并且取得了很好的效果
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

4 Bert

Pre-training of Deep Bidirectional Transformers for Language Understanding
谷歌AI语言组论文《BERT：语言理解的深度双向变换器预训练》
Bert模型主要两个特点
1、特征提取器使用的是transformer
2、预训练使用的是双向语言模型

Bert还有突出的地方在于它的预训练任务上，Bert采用了两个预训练任务：Masked语言模型(本质上是CBOW)、Next Sentence Prediction
(1) Masked语言模型：随机选择语料中15%的单词，把它抠掉，也就是用[Mask]掩码代替原始单词，然后要求模型去正确预测被抠掉的单词，但15%词中只有80%会被替换成mask，10%被替换成另一个词，10%的词不发生改变

(2) Next Sentence Prediction：指语言模型训练的时候，分两种情况选择句子，一种是正确拼接两个顺序句子，一种是从语料库中随机选择一个句子拼接到句子后面，做mask任务时顺带做句子关系预测，因此BERT的预训练是一个多任务过程，NextSentence Prediction可以让bert在跨句子的任务中表现的更好如句子相似度计算，而Masked LM则是让bert更好学到上下文信息
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

5 Xlnet

Generalized Autoregressive Pretraining for Language Understanding
From Google Brain and CMU.
Authors: Zhilin Yang∗, Zihang Dai∗, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
论文中提到的两个重要的概念Autoregression LM自回归语言模型、Autoencoder LM自编码语言模型
(1) 自回归语言模型AutoregressionLM：上文预测下文或下文预测上文，缺点是只能利用上文信息或下文信息，不能同时对深层的上下文信息同时建模，无法同时联系上下文信息
(2) 自编码语言模型AutoencoderLM：经典例子即Bert，Mask掉部分单词，预测Mask的单词，类似于噪音自编码Denosing Autoencoder，这样便可以同时利用上下文信息预测masked的词，缺点是引入mask标记使得预训练阶段和Fine-tuning阶段不一致，因为预训练阶段模型学习到了mask掩码之间的依赖关系，但是在Fine-tuning无mask因此会有影响

XLNet方案：仍采用的是第一阶段语言模型预训练，第二阶段任务数据Fine-tuning阶段，相对于上面介绍的AR模型和AE模型，XLNet有以下几个优点：
(1) XLNet模型完全基于AutoRegression，但XLNet为了预测时能够看到上下文信息，引入了Permutation Language Model即相当于对输入序列做全排列，在不用masked词破坏序列的情况下看到上下文，XLNet预训练和微调一致，且消除了BERT词独立性假设
(2) 引入了Transformer-xl中的recurrence machanism和relative encoding，处理更长文本依赖关系
网盘地址：
链接：https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码：ynmc

6 Introduction to Conditional Random Fields

本篇论文详细介绍了条件随机场（Conditional Random Fields，CRF）模型，了解CRF模型必读论文，包括有四个部分：
第一部分介绍了CRF模型的基础知识图模型，还有判别式模型和生成式模型的区别。
第二部分介绍了两种CRF模型，Linear-chain CRFs和General CRFs，并介绍了CRF中的特征工程和特征选择。
第三部分介绍了CRF模型的参数优化和模型训练，主要是最大似然估计，随机梯度下降法。
第四部分包括CRF的具体应用如NLP中的分词、词性标注、命名实体识别等序列标注任务。
论文下载：https://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf
云盘地址：链接: https://pan.baidu.com/s/1dnXLEOvgYeo-Ag8DBz9A_w 密码: q754

7 Modern Deep Learning Techniques Applied to Natural Language Processing

这是一篇在线的概述文章，介绍了NLP的发展历史，以及最新处理NLP任务的方法，从词的分布式表示如word2vec，Glove等词向量模型，到CNN、RNN等分类模型和seq2seq序列到序列模型，已经注意力Attention模型，再到并行化注意力Transformer模型，并对比了不同方法在词性标注、句法分析、命名实体识别、语义角色标注、情感分类、机器翻译、问答系统等不同任务上的表现。这个是最近更新，非常值得阅读！！！
英文原文：https://nlpoverview.com/index.html
中文翻译：万字长文概述NLP中的深度学习技术，https://www.jiqizhixin.com/articles/2019-02-28-12

8 Supervised Sequence Labelling with Recurrent Neural Networks

该论文详细介绍了神经网络、RNN、LSTM等基础知识，以及数学公式推导和求解过程，还介绍了神经网络方法在有监督的序列标注问题上的应用。具体包括神经网络、多层感知器的介绍，RNN，BiLSTM网络的构建和梯度求解，了解神经网络相关知识必读论文。
论文下载：https://www.cs.toronto.edu/~graves/phd.pdf
云盘地址：链接: https://pan.baidu.com/s/1DE2QMIdgM9qPqnZ_GR7gUQ 密码: uyxs

9 Sentiment Analysis and Opinion Mining

这个不算是一篇论文，内容较多，其实是一本书，作者详细总结了情感分析（Sentiment Analysis）和意见挖掘（Opinion Mining）领域的所有的研究方向，和一些经典的研究方法。包括文本情感分析的定义，情感分析的问题细分，如句子级别和文档级别。还有细粒度的情感分析，主观和客观的意见分析等。以及观点和意见的摘要生成。总结的方法包括无监督方法：基于词典方法、基于规则的方法、基于主题模型的方法；有监督方法：支持向量机SVM、CRF模型。
论文下载：https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf
云盘地址：链接: https://pan.baidu.com/s/1HXyDjbJeCobGKVMOkoOwtg 密码: tgf4

10 Deep Learning for Sentiment Analysis A Survey

该论文总结了深度学习在情感分析领域的应用，包括不同的模型方法，首先介绍了神经网络、深度学习的基础知识，以及实际应用场景，然后分别介绍了不同的模型如何完成情感分析任务，包括词向量word2vec模型、CNN、RNN、LSTM、Attention模型、Memory Network等各种主流模型。对于研究NLP中情感分析领域属于必读论文。
论文下载：https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf
云盘地址：链接: https://pan.baidu.com/s/1eMZPNvNpYg1EU79AiEewTw 密码: 9ad2

11 Recent Trends in Deep Learning Based Natural Language Processing

该论文总结了如今深度学习在NLP领域的研究热点和趋势，以及深度学习在解决各类NLP问题上的尝试，从词的表示学习讲起包括词词向量、字符向量、word2vec模型等，到CNN模型的文本分类，到RNN的语言模型、句子分类。递归神经网络(Recursive neural networks)的情感分析，还有注意力Attention、Memory Network在问答系统、对话系统中的应用。
论文下载：https://arxiv.org/pdf/1708.02709.pdf
网盘地址：链接: https://pan.baidu.com/s/1mZmCFAZy9FYhWb3vK3Xv_w 密码: sw34

huangrs098

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
NLP相关经典书籍和论文

经典书籍：1 Speech and Language Processing这个是NLP大牛Daniel Jurafsky的关于语音和语言处理的一本书，NLP领域非常经典的入门教程，语言通俗易通，实例简单形象。最近作者在写最新的第三版，要知道第二版是2008年完成的，最新版除了介绍传统的自然语言处理方法外，如贝叶斯分类、逻辑回归、TF-IDF等，也加入了最新的神经网络和深度学习一类方法，有介绍神经网络语言模型、问答系统、对话系统、机器翻译等。还有信息检索、实体链接分析等。现在第三版还没有完全写完，作者把已
复制链接

扫一扫