词法分析与词性标注学习之笔记（一）----词法分析

最新推荐文章于 2021-05-16 22:32:23 发布

CMY_yu

最新推荐文章于 2021-05-16 22:32:23 发布

阅读量2.2k

点赞数

文章标签：词法分析

本文链接：https://blog.csdn.net/CMY_yu/article/details/98978585

版权

本文介绍了词法分析的概念，包括词法分析器的作用和在编译过程中的地位。讨论了中文分词的挑战，如歧义切分和未登录词识别，并概述了词法分析的体系结构和系统特点。此外，文章还涵盖了词法分析在自然语言处理领域的应用，如命名实体识别和机器翻译，并提到了词法分析的任务包括分词和词性标注。最后，探讨了自动分词面临的问题及常用的技术方法，如基于词库匹配和统计方法。

摘要由CSDN通过智能技术生成

词法分析

词法分析的概念

**词法分析：**词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer，简称Lexer)，也叫扫描器(Scanner)。词法分析器一般以函数的形式存在，供语法分析器调用。完成词法分析任务的程序称为词法分析程序或词法分析器或扫描器。
完成词法分析任务的程序称为词法分析程序或词法分析器或扫描器。词法分析阶段是编译过程的第一个阶段，是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序，即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。
所属领域：编译原理
本质：按照语言的词法规则识别各类单词

在这里插入图片描述
中文分词的概括介绍
中文分词与词性标注是自然语言处理的第一个阶段，是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式，如“结合成分子”这句话就有好几种切分方法，但是正确的只有一种，能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别，未登录词指的是在词表中没有收录的词，主要包括时间词、数词、人名、地名、机构名等。

词法分析的体系结构

体系结构：系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程，系统的核心数据结构是一个切分词图（segment graph）。

词法分析系统的特点

1.支持多线程，保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性，使您可以最大限度的进行DIY，以满足不同的需求
4.支持大文本输入，无论您一次输入多长的文本它都能处理，不过我不推荐您这样做，因为文本长的话未登录词识别效果稍有下降
5.支持扩展词表，您可以手工加入任意新词或专有词汇
6.灵活的资源