首先是NLP的分类
- 语法语义分析:对于给定的词句进行分词,词性标记和语法分析等。
- 信息抽取:从给定的文本中抽取重要的信息,例如地点·人名·时间等专有名词。
- 文本挖掘:文本聚类·分类和信息的抽取情感分析和挖掘信息的可视化表达界面,主流是基于统计机器学习的。
- 机器翻译:把源语言自动翻译成目标语言的文本。根据媒介也可分为
a·文本翻译
b·语音翻译
c·手语翻译
d·图形翻译。。。使用(编码-解码)方法,已有严谨的方法体系。 - 信息检索:对大规模档进行索引,也可利用1,2,3 的技术进行深层索引。
- 问答系统:对自然语言表达的问题,由问答系统给出一个精准答案。对自然语言进行语义分析然后形成逻辑表达式,在知识库中找到答案,进行排序。
- 对话系统:对用户语言的理解,还有有上下文相关,进行多轮对话的能力,以及个性化回复。
以上是NLP的大体研究方向分类
如何选择一个好的题目,学术的研究不应该仅限于学习以往知识,还要找到创新点并予以验证。以下是在周明博士的博客中摘录下来的:
- 先找到自己喜欢的研究领域。你找到一本最近的ACL会议论文集, 从中找到一个你比较喜欢的领域。在选题的时候,多注意选择蓝海的领域。这是因为蓝海的领域,相对比较新,容易出成果。
- 充分调研这个领域目前的发展状况。包括如下几个方面的调研:方法方面,是否有一套比较清晰的数学体系和机器学习体系;数据方面,有没有一个大家公认的标准训练集和测试集;研究团队,是否有著名团队和人士参加。如果以上几个方面的调研结论不是太清晰,作为初学者可能不要轻易进入。
- 反复阅读本领域最新发表的文章,多阅读牛人发表的文章。在深入了解已有工作的基础上,探讨还有没有一些地方可以推翻、改进、综合、迁移。注意做实验的时候,不要贪多,每次实验只需要验证一个想法。每次实验之后,必须要进行分析存在的错误,找出原因。
- 对成功的实验,进一步探讨如何改进算法。注意实验数据必须是业界公认的数据。
- 与已有的算法进行比较,体会能够得出比较一般性的结论。如果有,则去写一篇文章,否则,应该换一个新的选题。
个人总结为:
1,先在acl或者emnlp等期刊上选择各个方向的优秀paper各一篇左右;
2,这个方向应该具备这几个特点:蓝海·也就是还有待于开发的领域,并且已经有了前人在这个领域内的基础性建设,有了较为清晰的体系,便于入手研究;
3,选定方向后,多多阅读顶刊上的paper,要注意:应用背景,与其他的技术不同之处,如何实现(算法)这几点。
按照以上的方式,先静下心来读论文吧。