NLP全称是Natural Language Processing的简称,也叫自然语言处理,属于AI的一个分支,这是一个比较难的分支,但是不用怕,拥有有效资源并步步积累,相信你一定会成为nlp达人。
◆ ◆ ◆优 秀 书 单
自然语言处理综论
Daniel Jurafsky
本书是一本全面系统地讲述计算机自然语言处理的优秀教材。深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。
语音和语言处理
DanielJurafsky和James H. Martin
深入细致地探讨了计算机处理自然语言的词汇、语法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。经典的NLP教科书,涵盖了所有NLP的基础知识,第3版草案基本形成。
统计自然语言处理的基础
ChrisManning和HinrichSchütze
更高级的统计NLP方法,全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。
统计自然语言处理
宗成庆
全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。
基于深度学习的自然语言处理
Yoav Goldberg
本书重点介绍了神经网络模型在自然语言处理中的应用。首先介绍有监督的机器学习和前馈神经网络的基本知识,如何将机器学习方法应用在自然语言处理中,以及词向量表示(而不是符号表示)的应用。然后介绍更多专门的神经网络结构,包括一维卷积神经网络、循环神经网络、条件生成模型和基于注意力的模型。后讨论树形网络、结构化预测以及多任务学习的前景。
自然语言处理的形式模型
冯志伟
本书对自然语言处理中的各种形式模型进行了系统的梳理,说理透彻、语言流畅、实例丰富、深入浅出,适合于从事自然语言处理教学和研究的科研人员、大学师生阅读,也可以作为人工智能、计算语言学等课程的教学参考。
◆ ◆ ◆Github 资 源 库
DeepLearningForNLPInPytorch
以NLP为主题的教程:一套以 NLP 为主题的PyTorch 基础教程。本教程使用Ipython Notebook编写,看起来很直观,方便学习。
Practial Pytorch with Topic RNN & NLP
通过基于项目的教程学习PyTorch,这些教程演示了具有可读代码的现代技术,并使用来自互联网的常规数据。教程分为两个系列:
系列1:NLP的RNN,将循环神经网络应用于自然语言任务,从分类到生成
系列2:时间序列数据的RNN
Deep Learning for NLP resources
一套以NLP为主题的资源集合,其中包括了大量NLP相关的讲座、课程。用于NLP序列建模任务的最先进资源,例如机器翻译,图像字幕和对话。
SolvingNLP tasks using Deep Learning
也是一个关于深度学习NLP的资源库,有一些开源的学习资源还有一些使用深度学习解决自然语言处理问题的集合,内容包主体识别、文本理解、机器翻译等。
清华大学NLP实验室GitHub小站
著名的清华大学NLP实验室的GitHub站点,其中有知识图谱TransX的模型实现,一些必读的NLP Paper资源,以及一些中文语言处理的工具。
复旦大学NLP实验室GitHub小站
著名的福大大学NLP实验室的GitHub站点,其中提供了一套用于中文语言处理的工具,以及一个2016年微博分词的数据集。
◆ ◆ ◆
网 站 博 客
自然语言处理博客
这是一个私人得博客,作者研究得方向主要是自然语言处理(NLP),计算语言学(CL)和相关主题(机器学习,数学,资金等)领域。
Google研究博客
谷歌的AI研究博客,发布深度学习,自然语言方面的最新研究。
Twitter nlproc
这是twitter上面关于nlproc的话题标签,可以看到不同的人分享的话题和文章。
Reddit 社交新闻站点
自然语言处理的社区网站,将研究者提出的讨论或问题按照时间或热度排序,可以参与讨论和回复,自己也能够发帖。
Medium发布平台
这是medium上的关于NLP的发布平台,研究者们在平台上发布自己的最新研究或者实现的小项目。
斯坦福CoreNLP
斯坦福CoreNLP网站,由Java开发的高质量的自然语言分析工具包。
◆ ◆ ◆
项 目 推 荐
DrQA
DrQA 是 facebook 开源的开放式阅读理解智能问答算法。
DrQA是一个应用于开放域问答的阅读理解系统,其目标是“大规模机读”(MRS)。因此,系统必须将文档检索的挑战与机器对文本的理解的挑战相结合。
lasagne-draw
用RNN生成手写数字。
fairseq
Fairseq(-py)是一个序列建模工具包,允许研究人员和开发人员为翻译,摘要,语言建模和其他文本生成任务培训自定义模型,同时它还提供了各种序列到序列模型的参考实现。
neural-storyteller
neur-storyteller是一个反复出现的神经网络,可以生成关于图像的小故事。此存储库包含使用您自己的图像生成故事的代码,以及培训新模型的说明。
OpenNMT
OpenNMT 全称是Open Source Neural Machine Translation in PyTorch (PyTorch 开源神经翻译模型), 作为自动翻译的平台型项目, OpenNMT 支持各种文本数据预处理,包括各种 RNN 单元, 各种 attention机制,花式日志,语音转文本,看图说话等。
neural-style
将照片变成大师风格的绘画 ,本文提出了一种使用卷积神经网络将一个图像的内容与另一个图像的样式相结合的算法。提供常见问题及其解决的办法。
AllenNLP
AllenNLP,是AI2公司家的开源项目,致力于成为 PyTorch 下 NLP 算法研究和实现的全能平台。
AllenNLP 自身实现了包括:命名实体识别、语义角色标注、阅读理解在内的多种常用算法。
我们给大家准备了“资源礼包”,在公众号(DC学习助手)回复“NLP”即可领取