自然语言处理怎么学入手快

最新推荐文章于 2024-06-25 16:15:00 发布

jack_201316888

最新推荐文章于 2024-06-25 16:15:00 发布

阅读量342

点赞数

分类专栏： AI

原文链接：https://www.zhihu.com/question/19895141

版权

AI 专栏收录该内容

135 篇文章 6 订阅

订阅专栏

https://www.zhihu.com/question/19895141

作者：人民邮电出版社
链接：https://www.zhihu.com/question/19895141/answer/885662115
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

非科班出身，自学撸出中文分词库HanLP，在GitHub标星1.5万，成为最受欢迎的自然语言处理项目。他将学习经验总结成书《自然语言处理入门》，帮助小白快速入门NLP。

针对题主的提问，HanLP自然语言处理类库的开发者何晗的经验很值得借鉴。

截至 2019 年 11月初，HanLP项目在 GitHub Star 数达到了 15.6 K，超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP。

贴上GitHub地址：https://github.com/hankcs/HanLP

何晗在开发这款 NLP 工具包时，还是上海外国语大学一名日语专业的大二学生，HanLP项目脱胎他大学时接的一份兼职，何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家。如今，正在攻读CS博士的他（研究方向：句法分析、语义分析与问答系统），结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书，得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐。

从着手开发HanLP，到HanLP达到工业使用的水准，何晗对自学NLP有深刻的见解。如果用一句话来总结，那就是：自顶而下，从工程去切入，由应用层往下面的基础层拓展，递归补充理论知识，才能事半功倍。以下入门NLP的建议，皆来自于何晗的经验，分享给像题主这样的初学者，希望能对大家有所启发。

一、初学者，请避开自学NLP的常见误区

有的初学者排斥基础理论——认为学校教的都是没用的，公司里都用不到；
有的初学者对基础理论敬而远之——认为理论太高深了，自己基础不好，学了也白学；
有的初学者，特别是已经工作的程序员，基本方向正确但学习路径错误，比较容易走极端：
- 在工作很忙的情况下，只是抱着经典书籍苦啃，直到筋疲力尽项目也毫无进展，从而丧失了学习NLP的兴趣；
- 或者，俗称调库小能手，跟风潮流，缺少理论基础，缺乏独立思考能力（比如，认为深度学习最牛，其他的基础理论都是垃圾；认为CNN/RNN/BERT会调参就行了）。

而实际上，自然语言处理是计算机科学、人工智能和语言学学科的交集，这三方面的学科知识都是需要储备的，基础理论的学习必不可少。但很多初学者都是在工作之后才入坑NLP，既难以静下心来啃书啃课，又缺少很好的老师传授知识经验。所以，有效可行的入门方式就是从工程切入，遵循这样的逻辑：延迟加载，只在使用的时候才去加载必要的资料：

你首先看到的是一个摸得着的实际问题，为了解决该问题才去接触一个具体的方案；
为了理解这个方案，才会引入必要的背景知识；
为了实现这个方案，才会引入相关细节；
为了克服这个方案的问题，才会过渡到新的方案。

二、想快速入门NLP，边学边做疗效好

何晗入门NLP，读过的经典书有：《统计自然语言处理》（宗成庆著）（对应语言学知识）、《统计学习方法》（李航著）（对应人工智能知识），《挑战程序设计竞赛》（秋叶拓哉、盐田阳一、北川宜稔著）（对应计算机算法知识）。

不过，在看经典书籍的过程中，他发现，学习自然语言处理并不需要完全把这几本书看透，最好是可以边看书边做项目。这些书都是非常牛的好书，然而可惜的是，看完书中的章节，不知该如何应用其中的知识点，即使实现了文章中提到的模型，也很难直接将其运用于工程项目。

想必很多初学者都面临类似的学习困惑。为了解决这个问题，何晗动手写了《自然语言处理入门》，目的就是希望学习者看完一章后，便可以将知识点直接用于项目，适合NLP初学者入门并快速布置到生产环境中。成效快，痛苦小，疑问少。

何晗在《自然语言处理入门》一书中，以自己的HanLP开源项目为案例，代码对照公式讲解每一个算法每一个模型，让入门者带着工程思维理解NLP的知识要点，试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡。

《自然语言处理入门》带领学习者从基本概念入手。逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理和工程实现。通过对多种算法的讲解和实现，比较各自的优缺点和适用场景。这些实现并非教学专用，而是生产级别的成熟代码，可以直接用于实际项目。

在理解这些热门问题的算法后，这本书会引导学习者根据自己的项目需求拓展新功能，最终达到理论和实践上的同步入门。

何晗认为，NLP的学习路径，应该尊重一般人的认知规律，而不是学术上的纲目顺序，以此为宗旨来编排图书的内容。因此，面向普通程序员，这本书内容分为以下三大部分：