词法分析与词性标注学习之笔记(一)----词法分析

本文介绍了词法分析的概念,包括词法分析器的作用和在编译过程中的地位。讨论了中文分词的挑战,如歧义切分和未登录词识别,并概述了词法分析的体系结构和系统特点。此外,文章还涵盖了词法分析在自然语言处理领域的应用,如命名实体识别和机器翻译,并提到了词法分析的任务包括分词和词性标注。最后,探讨了自动分词面临的问题及常用的技术方法,如基于词库匹配和统计方法。
摘要由CSDN通过智能技术生成

词法分析

词法分析的概念

**词法分析:**词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。 完成词法分析任务的程序称为词法分析程序或词法分析器或扫描器。
完成词法分析任务的程序称为词法分析程序或词法分析器或扫描器。词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个 字符一个字符地读入 源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。
所属领域:编译原理
本质:按照语言的词法规则识别各类单词

在这里插入图片描述
中文分词的概括介绍
中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子”这句话就有好几种切分方法,但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。

词法分析的体系结构

体系结构:系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程,系统的核心数据结构是一个切分词图(segment graph)。

词法分析系统的特点

1.支持多线程,保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求
4.支持大文本输入,无论您一次输入多长的文本它都能处理,不过我不推荐您这样做,因为文本长的话未登录词识别效果稍有下降
5.支持扩展词表,您可以手工加入任意新词或专有词汇
6.灵活的资源

本科毕业设计 简单词法分析器生成工具的设计和实现 摘  要 本文描述一个简单的词法分析器生成工具的设计和实现过程。该词法分析器生成工具的功能是,它能根据给定的正则表达式构造出语言识别器。该语言识别器能够判断输入的句子是否是给定的正则表达式所描述的语言的句子,并在文件或标准输出中显示、保存所识别句子的信息。构造语言识别器的过程为:首先,从词法分析器生成工具读入正则表达式,将该正则表达式转换成等价的不确定的有限自动机,从而构造出确定的有限自动机,然后构造出确定的有限自动机的状态转换表,词法分析器生成工具利用该状态转换表生成语言识别器的C语言源文件,编译链接该C语言源文件即可生成语言识别器。在实现过程中,本文用语分析器生成工具Bison来扫描正则表达式自动的来构造不确定的有限自动机 目 录 1 引言 1 2 基本概念 3 2.1 正则表达式 3 2.2 确定的有限自动机(DFA)和非确定的有限自动机(NFA) 3 2.3 产生式 5 3语言识别器生成工具的实现 6 3.1 实现的算 7 3.1.1 由正则表达式构造NFA--Thompson构造 8 3.1.2 LR语分析自动构造NFA 11 3.1.3 子集构造 14 3.1.4 语言识别器的识别算 16 3.2 数据结构 17 3.2.1 NFA的存储结构 17 3.2.2 DFA的存储结构 19 3.2.3 状态转换表的存储结构 20 3.3本章内容小结 20 4 编译运行及其性能 21 5 总结 24 参考文献 25 需要的联系请:QQ506425246
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值