中文分词研究入门

中文分词研究入门

 

导读

本文首先简单介绍了自然语言处理和科研过程中重要的四部曲——调研、思考、编程和写作,然后对中文分词问题进行了说明,介绍了中文分词存在的难点如消歧、颗粒度问题、分词标准等。接着,本文总结了调研文献中的分词方法,包括基于词典的最大匹配法以及其相应的改进方法、基于字标注的分词方法等,同时也介绍了当前中文分词的研究进展和方向,如统计与词典相结合、基于深度学习的分词方法等。而后,本文具体介绍了如何基于词典的双向最大匹配法以及基于字标注的平均感知机进行分词的实验,对实验结果进行了分析并给出了几种改进模型的思路。最后,本文给出了相应的参考文献以及其他资料。

本文作者:llhthinker

原文地址:http://www.cnblogs.com/llhthinker/p/6323604.html

转载请保留

目录

 

1.    导论    

1.1 自然语言处理简介  

1.2 科学研究方法  

1.3 中文分词问题介绍  

2.    中文分词文献调研  

2.1 最大匹配法  

2.2 复杂最大匹配法  

2.3 基于字标注的分词法  

2.4中文分词研究进展  

2.4.1 统计与字典相结合  

2.4.2基于深度学习的分词方法  

3.    中文分词方法实践  

3.1 基本思路  

3.2 双向最大匹配法  

3.3 基于字标注的平均感知机分词方法  

3.3.1 特征设计   

3.3.2 算法设计   

3.3.3 增量训练   

3.4 实验结果及分析   

3.5 模型改进思路   

4.    参考文献   

1. 导论

1.1 自然语言处理简介

自然语言处理(NLP, Natural Language Processing)是用机器处理人类语言(有别于人工语言,如程序设计语言)的理论和技术。自然语言处理是人工智能的一个重要分支,属于计算机应用技术(有别于计算机技术)。计算机应用技术作为二级学科所属于一级学科计算机科学技术。自然语言处理又可以称作自然语言理解或计算语言学。

自然语言处理是一个贴近应用的研究方向。NLP大致可分为基础研究和应用技术研究。基础研究包括词法分析、句法分析、语义分析和篇章理解等;应用技术研究包括文本挖掘、自动问答、信息检索、信息抽取、机器翻译等。

1.2 科学研究方法

研究活动的大致流程可以遵循如下四个阶段[1]:

  1. 阅读 (Reading)
  2. 思考 (Thinking)
  3. 编程 (Programming)
  4. 写作 (Writing)

第一阶段阅读大约占整个过程的30%。收集并阅读资料是研究过程的第一步。现在的资料浩如烟海,如何收集到有价值的资料极为重要。研究的资料主要是论文,我们应该阅读重要的论文,而重要的论文往往具有以下一种或多种特征:

  • 发表在高水平(顶级)会议或期刊上:对于NPL领域,国际高水平会议包括ACL、EMNLP、COLING等,国内重要的NLP期刊如中文信息学报;
  • 引用数多;
  • 作者为高水平(著名)学者(参考http://cn.aminer.org/ );
  • 近5年尤其是近3年的论文: 由于学术发展较快,我们应该阅读最新的论文。

如何阅读一篇论文?阅读论文时应注意以下几点:

  • 以作者为线索理清脉络: 阅读论文时要注意论文作者和研究机构。以作者为线索理清该作者研究工作的脉络,以此熟悉该研究方向。
  • 抓住论文要害: 论文要害主要包括研究工作的目的、待解决的问题、解决问题的难点、针对问题难点的解决方法、该方法与其他方法的对比、该方法的不足等。
  • 批判式阅读: 每一篇学术论文都不是完美的,阅读论文时应带着批判的心理,在阅读中不断找出论文的问题或不足之处,并积极思考如何做可以更好的解决问题。

第二阶段思考大约占整个过程的20%。"学而不思则罔",在阅读过程中以及阅读后应该积极思考。

第三阶段编程大约占整个过程的20%。第一步是收集数据,数据可以是标准的评测数据,也可以是自己采集的真实数据。第二步是编写程序,实现算法。第三步是分析结果。

第四阶段写作大约占整个过程的30%。写作是科学研究的一个重要过程。论文是研究成果的体现,将自己的研究成果很好的展示给学术界,才能体现出研究的价值。

上述四个阶段不是瀑布式而是螺旋式,是对研究的方向不断深入的过程。

1.3 中文分词问题介绍

中文信息处理是指自然语言处理的分支,是指用计算机对中文进行处理。和大部分西方语言不同,书面汉语的词语之间没有明显的空格标记,句子是以字串的形式出现。因此对中文进行处理的第一步就是进行自动分词,即将字串转变成词串。

自动分词的重要前提是以什么标准作为词的分界。词是最小的能够独立运用的语言单位。词的定义非常抽象且不可计算。给定某文本,按照不同的标准的分词结果往往不同。词的标准成为分词问题一个很大的难点,没有一种标准是被公认的。但是,换个思路思考,若在同一标准下,分词便具有了可比较性。因此,只要保证了每个语料库内部的分词标准是一致的,基于该语料库的分词技术便可一较高下[3]。

分词的难点在于消除歧义,分词歧义主要包括如下几个方面:

  • 交集歧义, 例如:

    研究/ 生命/ / 起源
    研究生
    / / / 起源

  • 组合歧义,例如:

    他 / 从 / 马 / 上 / 下来

    他 / 从 / 马上 / 下来

  • 未登录词,例如:

    蔡英文 / 和 / 特朗普 / 通话

    蔡英文 / 和 / 特朗 / 普通话

除了上述歧义,有些歧义无法在句子内部解决,需要结合篇章上下文。例如,"乒乓球拍卖完了",可以切分为"乒乓/球拍/卖/完/了",也可以切分成"乒乓球/拍卖/完/了"。这类分词歧义使得分词问题更加复杂。

词的颗粒度选择问题是分词的

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值