对于自然语言处理的初步理解和学习方法

首先是NLP的分类

  • 语法语义分析:对于给定的词句进行分词,词性标记和语法分析等。
  • 信息抽取:从给定的文本中抽取重要的信息,例如地点·人名·时间等专有名词。
  • 文本挖掘:文本聚类·分类和信息的抽取情感分析和挖掘信息的可视化表达界面,主流是基于统计机器学习的。
  • 机器翻译:把源语言自动翻译成目标语言的文本。根据媒介也可分为
    a·文本翻译
    b·语音翻译
    c·手语翻译
    d·图形翻译。。。使用(编码-解码)方法,已有严谨的方法体系
  • 信息检索:对大规模档进行索引,也可利用1,2,3 的技术进行深层索引。
  • 问答系统:对自然语言表达的问题,由问答系统给出一个精准答案。对自然语言进行语义分析然后形成逻辑表达式,在知识库中找到答案,进行排序。
  • 对话系统:对用户语言的理解,还有有上下文相关,进行多轮对话的能力,以及个性化回复。

以上是NLP的大体研究方向分类
如何选择一个好的题目,学术的研究不应该仅限于学习以往知识,还要找到创新点并予以验证。以下是在周明博士的博客中摘录下来的:

  • 先找到自己喜欢的研究领域。你找到一本最近的ACL会议论文集, 从中找到一个你比较喜欢的领域。在选题的时候,多注意选择蓝海的领域。这是因为蓝海的领域,相对比较新,容易出成果。
  • 充分调研这个领域目前的发展状况。包括如下几个方面的调研:方法方面,是否有一套比较清晰的数学体系和机器学习体系;数据方面,有没有一个大家公认的标准训练集和测试集;研究团队,是否有著名团队和人士参加。如果以上几个方面的调研结论不是太清晰,作为初学者可能不要轻易进入。
  • 反复阅读本领域最新发表的文章,多阅读牛人发表的文章。在深入了解已有工作的基础上,探讨还有没有一些地方可以推翻、改进、综合、迁移。注意做实验的时候,不要贪多,每次实验只需要验证一个想法。每次实验之后,必须要进行分析存在的错误,找出原因
  • 对成功的实验,进一步探讨如何改进算法。注意实验数据必须是业界公认的数据
  • 与已有的算法进行比较,体会能够得出比较一般性的结论。如果有,则去写一篇文章,否则,应该换一个新的选题。

个人总结为:
1,先在acl或者emnlp等期刊上选择各个方向的优秀paper各一篇左右;
2,这个方向应该具备这几个特点:蓝海·也就是还有待于开发的领域,并且已经有了前人在这个领域内的基础性建设,有了较为清晰的体系,便于入手研究;
3,选定方向后,多多阅读顶刊上的paper,要注意:应用背景与其他的技术不同之处如何实现(算法)这几点。

按照以上的方式,先静下心来读论文吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值