自然语言处理系列:开篇
这个系列的起因
前几天在网上意外搜到了自然语言处理(Natural Language Processing, NLP)的学习路线图(roadmap,点这里),一共四张,分别介绍了概率&统计、机器学习、文本挖掘(NLP背景)和基于深度学习的自然语言处理,仔细看下来,既欣喜又惭愧。欣喜的是地图内容全面而有条理,通篇下来几无废话又几乎涵盖了一名NLP工程师应该具备的所有素养;惭愧的是自己号称是研究自然语言处理的,但是还有大量的内容理解不到位甚至是没听过。因此决定按图索骥,对照着roadmap将这些内容进行全面的学习、梳理,既可以充实、提高自己,又能够寓他人。
细数下来,自己的博士生涯还有近两年时光,要完成所有内容的梳理时间属实紧张;而且NLP本身也在迅速地发展,自知以有涯逐无涯确实有些自不量力。但是我相信,每天进步一点也是进步,何况我还有几十年的研究生涯。
培养一棵大树,最好是在十年前,其次是现在。
这个系列的框架
如上所言,这个系列的起因是那几张学习路线图,因此本系列的框架也会按照学习路线图来编排,共分为上述所言四个部分。 我会定期进行更新,每次更新选择四部分中某一部分的某一块内容,由浅入深。学习路线图虽是好的,但也有些不合适的地方,因此我不会照本宣科,必要时会对内容进行调整、增加和修改;随着内容的深入,全部内容的体系框架也会更加完整。也可能有朝一日能整理成册,以飨读者。
概率&统计
首先奉上本部分的学习路线图:
概率&统计有五部分内容,分别是概率论基础(Basic)、贝叶斯统计(Baysian)、采样(Sampling)、信息论(Information Theory)和基本的模型(Model)。概率论基础部分包含一些基本术语和常用的分布,是众多学习算法的基础;贝叶斯统计是现代机器学习的基石,是统计学与机器学习的联系的重要纽带;采样提供了解决很多复杂问题的新思路;信息论是解决机器学习问题的重要工具;基本的模型主要包含判别模型(Discrimination)和生成模型(Gerenative)两大类,理解了这两类模型,对日后更加复杂的机器学习算法/模型的学习大有裨益。
机器学习
先奉上学习路线图,具体的内容会逐步完善:
文本挖掘(NLP背景)
先奉上学习路线图,具体的内容会逐步完善:
基于深度学习的自然语言处理
先奉上学习路线图,具体的内容会逐步完善: