在公司做NLP也做了1年多了,学校学习了3年,发觉知识还不是很系统,最近几个月花时间来归纳总结一下所学知识,梳理一下NLP的路线,为成为更好的NLP算法工程师而努力,主要是给自己看的,所以可能会有些啰嗦,参考的文章在文末我都会附上链接。如果有幸能帮助到一些新入门NLP的同学,那更加有意义了。
既然开了博客,这里就先立一个Flag,每周更新2篇(每篇超过1000字),年前把自己做过的NLP任务都涉及到。其中也会穿插一些算法的自我理解。
准备写以下几个任务(先写做过的任务,然后写正在做的,最后写未来可能要做的):
- 文本分类(意图识别,情感分析)
- 文本匹配(相似度计算)
- 新词发现
- NER
- 文本聚类
- 阅读理解
- 文本摘要
项目选取经典项目或者是竞赛项目,有一些是打过的比赛,大部分是没打过的,如果有新比赛我也会详细写清楚的。有代码的章节会用Jupyter来书写。整体思路是先用传统方法做baseline,然后用简单神经网络,然后用深度网络,然后用最新论文中的方法,最后会用自己目前所能用的最优方法得出最优解答。
本文只做中文的任务,以后如果有机会的话可能会涉及英文任务。
另外,为了更加的通俗易懂以及适合入门,代码中涉及的一些python相关的操作小道会写在另一个分类下,力争能帮助到想入门NLP的同学,NLP的萌新和对NLP没有系统了解的朋友们。
最后,大家如果对目前内容有问题的话,请评论告知小道,虽然我也是NLP小菜鸡一枚,大家共同努力!
话不多说,一起开始走这趟学习之路吧!