《自然语言处理导论》读书笔记2

最新推荐文章于 2025-03-27 23:23:43 发布

ADATA1

最新推荐文章于 2025-03-27 23:23:43 发布

阅读量393

点赞数

文章标签：自然语言处理人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ADATA1/article/details/130806663

版权

文章介绍了自然语言处理中的三种主要方法：基于规则的方法，基于机器学习的方法，以及基于深度学习的方法。基于规则的方法依赖于语言学家的知识和规则构建，而机器学习方法需要大量有标注数据和特征工程。深度学习方法则通过自动学习特征表示简化了流程。此外，提到了大模型如GPT-3和PaLM在自然语言处理中的应用，它们减少了对任务特定设计的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一章（2）

知识补充：

词性标注：就是给词语标注属性，包括名词、动词、形容词、副词、代词、数词、介词等等。

分词：是自然语言处理(NLP)中的一个基本任务，指的是将连续的文本划分为单独的单位，如单词、短语或符号。分词在文本预处理阶段起到关键作用，有助于提高后续NLP任务的性能，如句法分析、情感分析和命名实体识别等。例如：我爱你中国可以划分成“我爱你/中国”

模型：在机器学习中，“模型”通常指的是一个数学或统计学的函数或算法，它能够从给定的数据集中学习出一些规律或者模式，并用这些规律或模式来进行预测或分类。

自然语言处理的几种方式（基本范式）

主要包括：基于规则的方法、基于机器学习的方法以及基于深度学习的方法。上述三种范式虽然有很大的不同，但是都有一个相同点就是需要针对特定任务进行构建。

1、基于规则的方法（基于词典的方法）

基于规则的自然语言处理方法的主要思想是通过词汇、形式文法等制定的规则引入语言学知识，从而完成相应的自然语言处理任务。

基于规则的方法基本流程如图所示，主要包含：数据构建、规则构建、规则应用和效果评价等四个部分。

方法核心是规则形式定义，其目标是使得语言学家可以在不了解计算机程序设计的情况下，能够容易地将知识转换为规则。

例如：其他领域的业务专家（不了解计算机知识），通过直接在搜索系统后台配置同义词词典、业务词词典，来影响搜索效果。

常见的规则包括产生式、框架、自动机、谓词逻辑、语义网等形式。例如，产生式规则是以 “IF-

THEN” 形式构造，表示如果满足条件，则执行相应的语义动作。

比如：同义词的配置，IF=工资，then=薪酬/薪水

优势：基于规则的方法从某种程度上可以说是在试图模拟人类完成某个任务时的思维过程。这类方法主要优点是直观、可解释、不依赖大规模的有标注数据，可以仅仅依靠人类的背景知识进行构建。

缺点：主要包括覆盖率差、大规模规则构建代价大、难度高等。规则库达到一定数量之后维护困难，新增加的规则与已有规则也容易发生冲突。不同人对于同一问题的解决思路的不同，也造成了大规模规则库中规则的不一致性，从而使得维护难度进一步提高。

2、基于机器学习的方法

基于机器学习的自然语言处理算法绝大部分采用有监督分类算法，将自然语言处理任务转化为某种分类任务，在此基础上根据任务特性构建特征表示，并构建大规模的有标注语料，完成模型训练。

其基本流程如图所示，通常分为四个步骤：数据构建、数据预处理、特征构建以及模型学习。

(1) 数据构建阶段主要工作是针对任务的要求构建训练语料，也称为语料库（Corpus）。

例如：要设计一套针对制度法规文档主力的机器学习模型，就需要提前准备大量的制度法规语料库。

(2) 数据预处理阶段主要工作是利用自然语言处理基础算法对原始输入，从词汇、句法、结构、

语义等层面进行处理，为特征构建提供基础,根据特征构建的需求，还可能需要进行词性标注、句法分析、语义角色标注等。

例如：对于前期准备的大量制度法规语料库进行分词、词性标注等。

(3) 特征构建阶段主要工作是针对不同任务从原始输入、词性标注、句法分析、语义分析等结果和数据中提取对于机器学习模型有用的特征。

特征定义一般都是由人工完成，根据经验选取适合的特征，这项工作又被称为特征（属性）工程（Feature Engineering ）。

在计算机科学和人工智能领域，feature(特征)是指用于描述和区分不同类别数据的基本属性。

例如，在图像识别任务中，每个像素点的亮度、颜色和纹理都可以被视为图像的一个特征；在自然语言处理任务中，每个单词的词性、语法结构和语义信息都可以被视为文本的一个特征。

特征工程(Feature Engineering)是机器学习和数据挖掘领域的一个重要步骤，它涉及从原始数据中提取、选择和构建合适的特征，以便更好地描述和区分不同的类别数据。特征工程的质量直接影响到模型的性能和准确性。

(4) 模型学习阶段主要工作是根据任务，选择合适的机器学习模型，确定学习准则，采用相应

的优化算法，利用语料库训练模型参数。

机器学习三要素：模型、学习准则、优化算法。

机器学习模型有很多类型，从不同的维度可以分为：分类模型、回归模型、排序模型、生成式模型、判别式模型、有监督模型、无监督模型、半监督模型、弱监督模型等等类别，需要根据任务的目标以及特性选择适合的模型。

难点1：基于机器学习方法的自然语言处理算法需要针对任务构建大规模训练语料，以人工特征构建为核心。整个流程中需要人工参与和选择的环节非常多，并且这些选择非常依赖经验，缺乏有效的理论支持。
难点2：开发一个自然语言处理算法的主要时间消耗在数据预处理、特征构建以及模型选择
和实验上。对于复杂的自然语言处理任务需要在数据预处理阶段引入很多不同的模块，这些模块之间需要单独优化，其目标并不一定与任务总体目标一致。其次多模块的级联会造成错误传播，前一步错误会影响后续的模型，这些问题都提高了基于机器学习的方法实际应用的难度。

3、基于深度学习的方法

深度学习（ Deep Learning ）方法通过构建有一定 “ 深度 ” 的模型，将特征学习和预测模型融合，

通过优化算法使得模型自动地学习出好的特征表示，并基于此进行结果预测。

基于深度学习方法的流程简化很多，通常仅包含数据构建、数据预处理和模型学习三个部分。同时，在数据预处理方面也大幅度简化，仅包含非常少量的模块。

4、基于大模型的方法

大模型是大规模语言模型（ Large Language Model）的简称，2020 年 Open AI 发布的 GPT-3 模型的规模达到了 1750 亿，Google 发布的 PaLM 模型的参数量达到了 5400 亿。这种参数量级的语言模型很难再延续此前针对不同的任务而使用的预训练微调范式。因此，研究人员们开始探索使用提示词（Prompt）模式完成各类型自然语言处理任务。

基于大模型的自然语言处理的流程转换为：

大规模语言模型构建、通用任务能力训练以及特定任务使用三个主要步骤。

该方法突破了传统自然语言处理需要针对不同任务进行设计和训练的瓶颈，任务可以不需要预先给定，仅依赖很少的任务特定标注数据，或者完全不依赖任何任务的有监督数据就可以得到相应结果。

缺陷：模型参数量太大导致训练和使用成本过高

博客等级

码龄4年

4
原创

0
点赞

1
收藏

1
粉丝

关注

私信

热门文章

最新评论

投票测试1
CSDN-Ada助手: 恭喜您写下了第四篇博客！看到您持续创作的努力，我感到非常钦佩。投票测试1这篇博客看起来很有趣，我期待着您接下来的创作。建议您在下一篇博客中加入更多细节和个人观点，这样可以让读者更好地了解您的想法。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
《自然语言处理导论》读书笔记3
CSDN-Ada助手: 恭喜您写了第三篇博客！《自然语言处理导论》读书笔记系列文章非常有价值，不仅给读者提供了深入了解该领域的机会，也展现了您的独到见解和认真态度。希望您能够继续保持创作热情，不断深入探索，为读者带来更多有益的知识分享。作为下一步的创作建议，或许您可以考虑分享一些实用的应用案例，让读者更好地了解自然语言处理的实际应用。再次恭喜您，期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
《自然语言处理导论》读书笔记1
CSDN-Ada助手: 恭喜您开始博客创作，我很期待看到您对《自然语言处理导论》的深入探讨和思考。希望您能够继续保持谦虚的态度，不断进步，为读者带来更多有价值的内容。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
《自然语言处理导论》读书笔记1
CSDN-Ada助手: 恭喜您开始博客创作，第一篇《自然语言处理导论》读书笔记1看起来很不错。期待您能够继续分享更多有价值的内容。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
《自然语言处理导论》读书笔记2
CSDN-Ada助手: 非常感谢您的博客分享，阅读您的读书笔记使我更深入地了解了自然语言处理。除了词性标注和分词，还有一些相关的技能和知识，比如命名实体识别、文本分类、机器翻译等等，也非常值得学习和掌握。希望您能继续分享您的学习心得，推动自然语言处理领域的发展。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。