NLP相关经典书籍和论文

经典书籍:

1 Speech and Language Processing

这个是NLP大牛Daniel Jurafsky的关于语音和语言处理的一本书,NLP领域非常经典的入门教程,语言通俗易通,实例简单形象。最近作者在写最新的第三版,要知道第二版是2008年完成的,最新版除了介绍传统的自然语言处理方法外,如贝叶斯分类、逻辑回归、TF-IDF等,也加入了最新的神经网络和深度学习一类方法,有介绍神经网络语言模型、问答系统、对话系统、机器翻译等。还有信息检索、实体链接分析等。现在第三版还没有完全写完,作者把已经完成的公开在网站上,可供下载。
网站主页:https://web.stanford.edu/~jurafsky/slp3/
网盘地址:链接:https://pan.baidu.com/s/16XaXdqCKWwtle-TATl3Nwg 提取码:expw

2 统计学习方法 李航(第二版)

本书共分为监督学习和无监督学习两部分,共22章。
第一篇介绍了感知机、朴素贝叶斯法、决策树、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场等算法,它们都是非常经典的监督学习方法。第二篇主要讨论了聚类方法、奇异值分解、主成分分析、潜在语义分析、马尔可夫链蒙特卡罗法和潜在狄利克雷分配等算法,它们都是非常经典的无监督学习方法。

除有关统计学习、监督学习和无监督学习的概论和总结的四章外,每章介绍一种方法。叙述力求从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

3 机器学习 周志华

俗称西瓜书,对于很多初学者或者数学基础不是特别扎实的同学们来说,想要完整、清晰地弄懂这本书其实并不容易。
是一本较为全面的书籍,书中详细介绍了机器学习领域不同类型的算法(例如:监督学习、无监督学习、半监督学习、强化学习、集成降维、特征选择等)
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

4 PRML中文版

《Pattern Recognition and Machine Learning》,中文译名《模式识别与机器学习》,简称 PRML。出自微软剑桥研究院实验室主任 Christopher Bishop 大神之手。
PRML 当之无愧算得上是 AI 领域的圣经了。PRML 涵盖面广,语言通俗,例子和习题更加详细,附带更多基础性的讲解和指引,难度梯度设置更为合理。包括机器学习,统计学,计算机科学,信号处理,计算机视觉,数据挖掘和生物信息学等。
第一章 介绍
第二章 概率分布
第三章 线性回归模型
第四章 线性分类模型
第五章 神经网络
第六章 内核方法
第七章 稀疏内核机器
第八章 图形模型
第九章 混合模型和EM
第十章 近似推断
第十一章 采样方法
第十二章 连续潜在变量
第十三章 顺序数据
第十四章 组合模型
链接:
https://www.080910t.com/wp-content/uploads/2020/03/PRML-Chinese-Edition.pdf
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

5 深度学习

麻省理工学院的《深度学习》(俗称:“花书”)则是一本初学者必读的深度学习书籍。它简明扼要的概括了深度学习中大部分重要主题,每当遇到深度学习概念时,都可以在书中找到参考,故被广大学员们誉为深度学习中的“圣经”教材。
本书的三位作者 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 一直耕耘于机器学习领域的前沿,在业内也具有非常大的知名度,引领了深度学习的发展潮流。
花书的内容包括3个部分:
第1部分:介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;
第2部分:系统深入地讲解现今已成熟的深度学习方法和技术;
第3部分:讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

6 神经网络与深度学习

本书主要介绍神经网络与深度学习中的基础知识、主要模型(前馈网络、卷积网络、循环网络等)以及在计算机视觉、自然语言处理等领域的应用。全书共15章,可以作为一学期的课程进行讲授。作者是复旦大学老师邱锡鹏

第1章是绪论,介绍人工智能、机器学习、深度学习的概要,使读者对相关知识进行全面的了解。
第2、3章介绍了机器学习的基础知识。
第4、5、6章分别讲述三种主要的神经网络模型:前馈神经网络、卷积神经网络和循环神经网络。在第6章中略提了下图网络的内容。
第7章介绍神经网络的优化与正则化方法。
第8章介绍神经网络中的注意力机制和外部记忆。
第9章简要介绍了一些无监督学习方法。
第10章中介绍一些和模型独立的机器学习方法:集成学习、协同学习、多任务学习、迁移学习、终生学习、小样本学习、元学习等。这些都是目前深度学习的难点和热点问题。
第11章介绍了概率图模型的基本概念,为后面的章节进行铺垫。
第12章介绍两种早期的深度学习模型:玻尔兹曼机和深度信念网络。
第13章介绍最近两年发展十分迅速的深度生成模型:变分自编码器和对抗生成网络。
第14章介绍了深度强化学习的知识。
第15章介绍了应用十分广泛的序列生成模型。
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

7 百面机器学习

又称葫芦书
书中收录了超过100道机器学习算法工程师的面试题目和解答,其中大部分源于Hulu算法研究岗位的真实场景。本书从日常工作、生活中各种有趣的现象出发,不仅囊括了机器学习的基本知识 ,而且还包含了成为出众算法工程师的相关技能,更重要的是凝聚了笔者对人工智能领域的一颗热忱之心,旨在培养读者发现问题、解决问题、扩展问题的能力,建立对机器学习的热爱,共绘人工智能世界的宏伟蓝图。
“不积跬步,无以至千里”,本书将从特征工程、模型评估、降维等经典机器学习领域出发,构建一个算法工程师必-备的知识体系;见神经网络、强化学习、生成对抗网络等新科研进展之微,知深度学习领域胜败兴衰之著
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

论文或文章:

1 ELMO

Deep contextualized word representations
这篇文章发表在2018年的NAACL上
具体来讲如何使用ElMo产生的表征呢?对于一个supervised NLP任务,可以分以下三步:
1.产生pre-trained biLM模型。模型由两层bi-LSTM组成,之间用residual connection连接起来。
2.在任务语料上(注意是语料,忽略label)fine-tuning上一步得到的biLM模型。可以把这一步看为biLM的domain transfer。
3.利用ELMo的word embedding来对任务进行训练。通常的做法是把它们作为输入加到已有的模型中,一般能够明显的提高原模型的表现。
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

2 GPT

Improving Language Understanding by Generative Pre-Training
由OpenAI推出的,GPT训练任务使用的是单向语言模型,特征提取器使用的是Transformer,GPT预训练模型取自Transformer的decoder阶段,使用了Masked Multi-Head Attention,GPT在预训练阶段是无监督学习,通过大量预料进行训练,Fine-tuning阶段是有监督学习,GPT无监督预训练过程,单向语言模型通过上文预测当前词
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

3 attention is all you need

2017 年,Google 机器翻译团队发表的《Attention is All You Need》中,完全抛弃了RNN和CNN等网络结构,而仅仅采用Attention机制来进行机器翻译任务,并且取得了很好的效果
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

4 Bert

Pre-training of Deep Bidirectional Transformers for Language Understanding
谷歌AI语言组论文《BERT:语言理解的深度双向变换器预训练》
Bert模型主要两个特点
1、特征提取器使用的是transformer
2、预训练使用的是双向语言模型

Bert还有突出的地方在于它的预训练任务上,Bert采用了两个预训练任务:Masked语言模型(本质上是CBOW)、Next Sentence Prediction
(1) Masked语言模型:随机选择语料中15%的单词,把它抠掉,也就是用[Mask]掩码代替原始单词,然后要求模型去正确预测被抠掉的单词,但15%词中只有80%会被替换成mask,10%被替换成另一个词,10%的词不发生改变

(2) Next Sentence Prediction:指语言模型训练的时候,分两种情况选择句子,一种是正确拼接两个顺序句子,一种是从语料库中随机选择一个句子拼接到句子后面,做mask任务时顺带做句子关系预测,因此BERT的预训练是一个多任务过程,NextSentence Prediction可以让bert在跨句子的任务中表现的更好如句子相似度计算,而Masked LM则是让bert更好学到上下文信息
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

5 Xlnet

Generalized Autoregressive Pretraining for Language Understanding
From Google Brain and CMU.
Authors: Zhilin Yang∗, Zihang Dai∗, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le
论文中提到的两个重要的概念Autoregression LM自回归语言模型、Autoencoder LM自编码语言模型
(1) 自回归语言模型AutoregressionLM:上文预测下文或下文预测上文,缺点是只能利用上文信息或下文信息,不能同时对深层的上下文信息同时建模,无法同时联系上下文信息
(2) 自编码语言模型AutoencoderLM:经典例子即Bert,Mask掉部分单词,预测Mask的单词,类似于噪音自编码Denosing Autoencoder,这样便可以同时利用上下文信息预测masked的词,缺点是引入mask标记使得预训练阶段和Fine-tuning阶段不一致,因为预训练阶段模型学习到了mask掩码之间的依赖关系,但是在Fine-tuning无mask因此会有影响

XLNet方案:仍采用的是第一阶段语言模型预训练,第二阶段任务数据Fine-tuning阶段,相对于上面介绍的AR模型和AE模型,XLNet有以下几个优点:
(1) XLNet模型完全基于AutoRegression,但XLNet为了预测时能够看到上下文信息,引入了Permutation Language Model即相当于对输入序列做全排列,在不用masked词破坏序列的情况下看到上下文,XLNet预训练和微调一致,且消除了BERT词独立性假设
(2) 引入了Transformer-xl中的recurrence machanism和relative encoding,处理更长文本依赖关系
网盘地址:
链接:https://pan.baidu.com/s/1ZLJw4K4osBEd6sT_jGCtfw
提取码:ynmc

6 Introduction to Conditional Random Fields

本篇论文详细介绍了条件随机场(Conditional Random Fields,CRF)模型,了解CRF模型必读论文,包括有四个部分:
第一部分介绍了CRF模型的基础知识图模型,还有判别式模型和生成式模型的区别。
第二部分介绍了两种CRF模型,Linear-chain CRFs和General CRFs,并介绍了CRF中的特征工程和特征选择。
第三部分介绍了CRF模型的参数优化和模型训练,主要是最大似然估计,随机梯度下降法。
第四部分包括CRF的具体应用如NLP中的分词、词性标注、命名实体识别等序列标注任务。
论文下载:https://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf
云盘地址:链接: https://pan.baidu.com/s/1dnXLEOvgYeo-Ag8DBz9A_w 密码: q754

7 Modern Deep Learning Techniques Applied to Natural Language Processing

这是一篇在线的概述文章,介绍了NLP的发展历史,以及最新处理NLP任务的方法,从词的分布式表示如word2vec,Glove等词向量模型,到CNN、RNN等分类模型和seq2seq序列到序列模型,已经注意力Attention模型,再到并行化注意力Transformer模型,并对比了不同方法在词性标注、句法分析、命名实体识别、语义角色标注、情感分类、机器翻译、问答系统等不同任务上的表现。这个是最近更新,非常值得阅读!!!
英文原文:https://nlpoverview.com/index.html
中文翻译:万字长文概述NLP中的深度学习技术,https://www.jiqizhixin.com/articles/2019-02-28-12

8 Supervised Sequence Labelling with Recurrent Neural Networks

该论文详细介绍了神经网络、RNN、LSTM等基础知识,以及数学公式推导和求解过程,还介绍了神经网络方法在有监督的序列标注问题上的应用。具体包括神经网络、多层感知器的介绍,RNN,BiLSTM网络的构建和梯度求解,了解神经网络相关知识必读论文。
论文下载:https://www.cs.toronto.edu/~graves/phd.pdf
云盘地址:链接: https://pan.baidu.com/s/1DE2QMIdgM9qPqnZ_GR7gUQ 密码: uyxs

9 Sentiment Analysis and Opinion Mining

这个不算是一篇论文,内容较多,其实是一本书,作者详细总结了情感分析(Sentiment Analysis)和意见挖掘(Opinion Mining)领域的所有的研究方向,和一些经典的研究方法。包括文本情感分析的定义,情感分析的问题细分,如句子级别和文档级别。还有细粒度的情感分析,主观和客观的意见分析等。以及观点和意见的摘要生成。总结的方法包括无监督方法:基于词典方法、基于规则的方法、基于主题模型的方法;有监督方法:支持向量机SVM、CRF模型。
论文下载:https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf
云盘地址:链接: https://pan.baidu.com/s/1HXyDjbJeCobGKVMOkoOwtg 密码: tgf4

10 Deep Learning for Sentiment Analysis A Survey

该论文总结了深度学习在情感分析领域的应用,包括不同的模型方法,首先介绍了神经网络、深度学习的基础知识,以及实际应用场景,然后分别介绍了不同的模型如何完成情感分析任务,包括词向量word2vec模型、CNN、RNN、LSTM、Attention模型、Memory Network等各种主流模型。对于研究NLP中情感分析领域属于必读论文。
论文下载:https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf
云盘地址:链接: https://pan.baidu.com/s/1eMZPNvNpYg1EU79AiEewTw 密码: 9ad2

11 Recent Trends in Deep Learning Based Natural Language Processing

该论文总结了如今深度学习在NLP领域的研究热点和趋势,以及深度学习在解决各类NLP问题上的尝试,从词的表示学习讲起包括词词向量、字符向量、word2vec模型等,到CNN模型的文本分类,到RNN的语言模型、句子分类。递归神经网络(Recursive neural networks)的情感分析,还有注意力Attention、Memory Network在问答系统、对话系统中的应用。
论文下载:https://arxiv.org/pdf/1708.02709.pdf
网盘地址:链接: https://pan.baidu.com/s/1mZmCFAZy9FYhWb3vK3Xv_w 密码: sw34

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值