词法分析
词法分析的概念
**词法分析:**词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。 完成词法分析任务的程序称为词法分析程序或词法分析器或扫描器。
完成词法分析任务的程序称为词法分析程序或词法分析器或扫描器。词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个 字符一个字符地读入 源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。
所属领域:编译原理
本质:按照语言的词法规则识别各类单词
中文分词的概括介绍
中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子”这句话就有好几种切分方法,但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。
词法分析的体系结构
体系结构:系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程,系统的核心数据结构是一个切分词图(segment graph)。
词法分析系统的特点
1.支持多线程,保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求
4.支持大文本输入,无论您一次输入多长的文本它都能处理,不过我不推荐您这样做,因为文本长的话未登录词识别效果稍有下降
5.支持扩展词表,您可以手工加入任意新词或专有词汇
6.灵活的资源