词法分析与词性标注学习第一周19.07.28

最新推荐文章于 2024-05-16 16:45:51 发布

Saniana

最新推荐文章于 2024-05-16 16:45:51 发布

阅读量407

点赞数

分类专栏：大数据文章标签：词法分析词性标注自然语言理解

本文链接：https://blog.csdn.net/saniana/article/details/97618445

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

词法分析与词性标注学习第一周

词法分析与词性标注简介
- 词法分析
- 词性标注
个人学习笔记

词法分析与词性标注简介

网上摘抄，若要详细的需百度~

词法分析

词法分析（英语：lexical analysis）是计算机科学中将字符序列转换为单词（Token）序列的过程。进行词法分析的程序或者函数叫作词法分析器（Lexical analyzer，简称Lexer），也叫扫描器（Scanner）。词法分析器一般以函数的形式存在，供语法分析器调用。
词法分析阶段是编译过程的第一个阶段，是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序，即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。
词法分析是编译程序的第一个阶段且是必要阶段；词法分析的核心任务是扫描、识别单词且对识别出的单词给出定性、定长的处理；实现词法分析程序的常用途径:自动生成,手工生成.
我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

词性标注

词性标注（Part-Of-Speech tagging, POS tagging）也被称为语法标注（grammatical tagging）或词类消疑（word-category disambiguation），是语料库语言学（corpus linguistics）中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术 [1-2] 。
词性标注可以由人工或特定算法完成，使用机器学习（machine learning）方法实现词性标注是自然语言处理（Natural Language Processing, NLP）的研究内容。常见的词性标注算法包括隐马尔可夫模型（Hidden Markov Model, HMM）、条件随机场（Conditional random fields, CRFs）等 [2-3] 。
词性标注主要被应用于文本挖掘（text mining）和NLP领域，是各类基于文本的机器学习任务，例如语义分析（semantic analysis）和指代消解（coreference resolution）的预处理步骤。