对于自然语言处理的初步理解和学习方法

最新推荐文章于 2024-01-18 02:07:47 发布

neu_lty

最新推荐文章于 2024-01-18 02:07:47 发布

阅读量555

点赞数 1

分类专栏： nlp 文章标签：学习方法 nlp

本文链接：https://blog.csdn.net/neu_lty/article/details/82850715

版权

nlp 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先是NLP的分类

语法语义分析：对于给定的词句进行分词，词性标记和语法分析等。
信息抽取：从给定的文本中抽取重要的信息，例如地点·人名·时间等专有名词。
文本挖掘：文本聚类·分类和信息的抽取情感分析和挖掘信息的可视化表达界面，主流是基于统计机器学习的。
机器翻译：把源语言自动翻译成目标语言的文本。根据媒介也可分为
a·文本翻译
b·语音翻译
c·手语翻译
d·图形翻译。。。使用（编码-解码）方法，已有严谨的方法体系。
信息检索：对大规模档进行索引，也可利用1，2，3 的技术进行深层索引。
问答系统：对自然语言表达的问题，由问答系统给出一个精准答案。对自然语言进行语义分析然后形成逻辑表达式，在知识库中找到答案，进行排序。
对话系统：对用户语言的理解，还有有上下文相关，进行多轮对话的能力，以及个性化回复。

以上是NLP的大体研究方向分类
如何选择一个好的题目，学术的研究不应该仅限于学习以往知识，还要找到创新点并予以验证。以下是在周明博士的博客中摘录下来的：

先找到自己喜欢的研究领域。你找到一本最近的ACL会议论文集, 从中找到一个你比较喜欢的领域。在选题的时候，多注意选择蓝海的领域。这是因为蓝海的领域，相对比较新，容易出成果。
充分调研这个领域目前的发展状况。包括如下几个方面的调研：方法方面，是否有一套比较清晰的数学体系和机器学习体系；数据方面，有没有一个大家公认的标准训练集和测试集；研究团队，是否有著名团队和人士参加。如果以上几个方面的调研结论不是太清晰，作为初学者可能不要轻易进入。
反复阅读本领域最新发表的文章，多阅读牛人发表的文章。在深入了解已有工作的基础上，探讨还有没有一些地方可以推翻、改进、综合、迁移。注意做实验的时候，不要贪多，每次实验只需要验证一个想法。每次实验之后，必须要进行分析存在的错误，找出原因。
对成功的实验，进一步探讨如何改进算法。注意实验数据必须是业界公认的数据。
与已有的算法进行比较，体会能够得出比较一般性的结论。如果有，则去写一篇文章，否则，应该换一个新的选题。

个人总结为：
1，先在acl或者emnlp等期刊上选择各个方向的优秀paper各一篇左右；
2，这个方向应该具备这几个特点：蓝海·也就是还有待于开发的领域，并且已经有了前人在这个领域内的基础性建设，有了较为清晰的体系，便于入手研究；
3，选定方向后，多多阅读顶刊上的paper，要注意：应用背景，与其他的技术不同之处，如何实现（算法）这几点。

按照以上的方式，先静下心来读论文吧。