词法分析与词性标注学习第一周
词法分析与词性标注简介
网上摘抄,若要详细的需百度~
词法分析
词法分析(英语:lexical analysis)是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。
词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。
词法分析是编译程序的第一个阶段且是必要阶段;词法分析的核心任务是扫描、识别单词且对识别出的单词给出定性、定长的处理;实现词法分析程序的常用途径:自动生成,手工生成.
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
词性标注
词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术 [1-2] 。
词性标注可以由人工或特定算法完成,使用机器学习(machine learning)方法实现词性标注是自然语言处理(Natural Language Processing, NLP)的研究内容。常见的词性标注算法包括隐马尔可夫模型(Hidden Markov Model, HMM)、条件随机场(Conditional random fields, CRFs)等 [2-3] 。
词性标注主要被应用于文本挖掘(text mining)和NLP领域,是各类基于文本的机器学习任务,例如语义分析(semantic analysis)和指代消解(coreference resolution)的预处理步骤。
个人学习笔记
仅为个人学习时的笔记
形态分析的一般方法
1.查词典:若词典中有该词,则直接确定该词的原型;
2.根据不同情况查找相应规则对单词进行还原处理,如果还原后在词典中找到该词,则得到该词的原形,如果找不到相应变换规则或者变换后词典中仍查不到该词,则作为未登录词处理;
3.进入未登录词处理模块;
切分方法
1.程序简单易行,开发周期短;
2.仅需要很少的语言资源(词表),不需要任何词法、句法、语意资源;
3.歧义消解能力差;
4.切分正确率不高,一般在95%左右;
最大匹配法
最少分词法
(比较好的分词)工具
1.支持向量机(SVM);
2.条件随机场(CRF);
该方法的重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。(——黄昌宁)
基于字的区分模型有利于处理集外词。
基于词的生成模型更多地考虑了词汇之间以及词汇内部字与字之间的依存关系。
尝试结合二者
汉语特别兴趣小组SIGHAN
(http://www.sighan.org/)
分词正确率(P):
基于词的3-gram:P = 89.8%
基于字的CRF:P = 94.3%
融合方法的3-gram:P = 95.0%
其他方法:
全切分方法
串频统计和词形匹配相结合的分词方法
规则方法与统计方法相结合
多重扫描法
……
基本资源:
建立地名资源知识库
建立识别知识库
机构名识别方法:
找到——机构称呼词
根据相应规则往前逐个检查名词作为修饰名词的合法性,直到发现非法词。
规则和统计相结合的词性标注方法
封闭评测
开放评测
正确率(P = n/N * 100%)
召回率(R = n/M * 100%)
F-测度值(F-Measure)
如果汉语自动分词与词性标注一体化进行,对于词性标注来说,可以用“召回率”衡量词性标注系统的性能。
[1]B站学习视频(自然语言理解_宗成庆): https://www.bilibili.com/video/av37626570/?p=31
[2]相关博客链接 NLP: https://blog.csdn.net/h_jlwg6688/article/details/69374902
[3]自然语言处理之词性标注集: https://blog.csdn.net/diyiday/article/details/87940222
[4]词法分析: https://baike.baidu.com/item/词法分析/8853461?fr=aladdin
[5]词性标注: https://baike.baidu.com/item/词性标注/2783103