《自然语言处理导论》读书笔记3

最新推荐文章于 2024-10-04 11:19:03 发布

ADATA1

最新推荐文章于 2024-10-04 11:19:03 发布

阅读量107

点赞数

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ADATA1/article/details/130828812

版权

第二章词汇分析1

补充知识：

正则表达式：是一种用于匹配和搜索文本模式的工具。它由一些字符和特殊符号组成，可以描述一个或多个字符的模式，并用来查找符合该模式的字符串。可用于数据清洗、搜索、替换等操作。

正则表达式(regex)可以分为以下几种类型：

字面量：直接匹配单个字符，如 a、1、. 等。
字符集：匹配多个字符中的任意一个，如 [abc] 可以匹配字符 a、b 或 c。
重复限定符：用来表示某个模式需要出现多次，如 * 可以匹配零个或多个前面的模式，+ 可以匹配一个或多个前面的模式。
边界限定符：用来指定某个模式只能出现在字符串的开头、结尾或某个位置上，如 ^ 表示匹配字符串的开头，$ 表示匹配字符串的结尾，[] 表示匹配方括号内的任意一个字符。
分组：将正则表达式中的一部分作为一个整体来处理，方便对其进行操作和引用。可以使用圆括号 () 将正则表达式的一部分括起来形成一个分组。
特殊字符：一些特殊字符具有特殊的含义，如 \d 表示数字，\s 表示空白字符等。
转义字符：用于转义一些特殊字符，使其不再具有特殊含义，如 \ 表示反斜杠。

词的处理是自然语言处理中重要的底层任务，是句法分析、文本分类、语言模型等任务的基础。

语素：

语素又称词素，是语言中意义的最小单元。语素与词不同，语素不能够独立运用而词可以。只包含一个语素的词语称为简单词（ Simple word ），而包含多个语素的词称为复杂词（ Complex word ）。例如： “ 电灯 ” ，包含 “ 电 ” 和 “ 灯 ”。

词的形态学/构词学

在语言学中，研究单词的内部结构和其构成方式的学科称为形态学（ Morphology）

有些语言的单词通常只包含一个或者两个语素，但是有一些语言的单词则包含多达十个以上的语素。汉语中每个单词的语素都很少，也不会根据性、数、格、人称等发生形态变化。但是对于英语单词 dog，在末尾添加 s 可以将它从单数名词变成复数名词 dogs

语素主要分成两类 : 词根（ Lemma ）和词缀（Affix ）。词根也称为原形或字典形，是指能在字典中查的到的语素，通常是一个词最主要的语素。词缀是其他附着在原形上的语素，帮助在原形基础上衍生出新词。

例如：中文的偏旁部首、英语的词根词缀

语素组成词汇，如果认识语素，就可以推测不认识的新词的含义，如果能够自动将词汇分解为语素，可以更好地对词汇进行进一步的分析。

词的词性

词性（ Part of Speech ， POS ）也称词类，是根据词在句子中扮演的语法角色以及与周围词的关

系对词的分类。（名词、动词、介词等等）

通过词性可以大致圈定一个词在上下文环境词汇分析中有可能搭配的范围，例如：介词 “in” 后面通常跟名词短语。通过词性可以为语法分析、语义理解提供帮助。

实义词：表示具体意义，会不断增加

功能词：满足语法功能，数量相对稳定

由于词性可以提供关于单词和其周边邻近成分的大量有用信息，词性分析也是自然语言处理中重要的基础任务之一。

英语宾州树库（Penn TreeBank）使用了 48 种不同的词性，汉语宾州树库（Chinese Penn Treebank）中汉语词性被划分为 33 类，而布朗语料库（Brown Corpus）[44] 中则使用了具有 87 个词性。

词语规范化

词语规范化（ Word Normalization）任务是将单词或词形转化为标准形式，针对有多种形式的单词使用一种单一的形式进行表示。包括词语切分、词形分析和词干提取。

词语切分：

以汉语为代表的汉藏语系（Sino-Tibetan languages）的语言中，单词之间通常没有分隔符。因此在对文本进行分析前，通常需要将句子切分为单词序列，称之为词语切分

词语切分任务可以定义为：给定一个符号串（一句话） x = c 1 c 2 · · · c n , （其中 c i 对于英文来说是字母、数字、标点符号等，对于中文来说是汉字、数字、标点符号等），输出一个词形（Token ）序列（切分后的句子） y = t 1 t 2 · · · t m ，可能会省略或删除其中的部分标点符号。

例如：

输入：Let’s first understand what’s NLP.

输出：Let␣'s␣first␣understand␣what␣'s␣NLP␣.

通常情况下针对英语等印欧语系语言的词语切分任务可以采用基于有限状态自动机（ Finite

State Automata ）融合正则表达式的方法完成。

词性还原：

词形还原（ Lemmatization ）是将词的各种变化形式还原其词根的过程。通过词形还原可以实现

词语的规范化，单词的不同变化形式统一为词根。

例如：

原始输入句：They are working on interesting tasks

词形还原后：they be work on interesting task

对于英语，可以通过词典查表实现，但是对于阿拉伯语、土耳其语这种语言，枚举所有词性变换是不可能的。

在一些语言中由于词形变换的复杂性，一个词的原形可能衍生出很多不同的词。采用词典匹配的方法很难达到较好的分析效果。因此，需要更有效率的词形分析算法。

典型的词形分析算法包括基于有限状态转换机（Finite State Transducer）方法，融合词典和有限状态转换机的方法以及统计机器学习方法等。

词干提取：

词干提取 (Stemming ）是词形分析的简化版本，其目标是将具有词形变化（通常是屈折或派生）

的词语还原为其词干（ Word Stem ）。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄3年

4
原创

0
点赞

0
收藏

1
粉丝

关注

私信

热门文章

最新评论

投票测试1
CSDN-Ada助手: 恭喜您写下了第四篇博客！看到您持续创作的努力，我感到非常钦佩。投票测试1这篇博客看起来很有趣，我期待着您接下来的创作。建议您在下一篇博客中加入更多细节和个人观点，这样可以让读者更好地了解您的想法。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
《自然语言处理导论》读书笔记3
CSDN-Ada助手: 恭喜您写了第三篇博客！《自然语言处理导论》读书笔记系列文章非常有价值，不仅给读者提供了深入了解该领域的机会，也展现了您的独到见解和认真态度。希望您能够继续保持创作热情，不断深入探索，为读者带来更多有益的知识分享。作为下一步的创作建议，或许您可以考虑分享一些实用的应用案例，让读者更好地了解自然语言处理的实际应用。再次恭喜您，期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
《自然语言处理导论》读书笔记1
CSDN-Ada助手: 恭喜您开始博客创作，我很期待看到您对《自然语言处理导论》的深入探讨和思考。希望您能够继续保持谦虚的态度，不断进步，为读者带来更多有价值的内容。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
《自然语言处理导论》读书笔记1
CSDN-Ada助手: 恭喜您开始博客创作，第一篇《自然语言处理导论》读书笔记1看起来很不错。期待您能够继续分享更多有价值的内容。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
《自然语言处理导论》读书笔记2
CSDN-Ada助手: 非常感谢您的博客分享，阅读您的读书笔记使我更深入地了解了自然语言处理。除了词性标注和分词，还有一些相关的技能和知识，比如命名实体识别、文本分类、机器翻译等等，也非常值得学习和掌握。希望您能继续分享您的学习心得，推动自然语言处理领域的发展。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。