【读书笔记】自然语言处理：基于预训练模型的方法（第1章）

最新推荐文章于 2024-04-26 17:23:29 发布

哈皮慧帝

最新推荐文章于 2024-04-26 17:23:29 发布

阅读量625

点赞数 2

分类专栏： NLP 文章标签：自然语言处理深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/happyhuidi/article/details/121107318

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

1.1 自然语言处理的概念

1.2 自然语言处理的难点

1.3 自然语言处理任务体系

1.3.1 任务层级

1.3.2 任务类别

1.3.3 研究对象与层次

1.4 自然语言处理技术发展历史

第1章绪论

1.1 自然语言处理的概念

自然语言处理（Natural Language Processing，NLP）主要研究用计算机理解和生成自然语言的各种理论和方法，属于人工智能领域的一个重要甚至核心分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学（Computational Linguistics，CL）。

1.2 自然语言处理的难点

1.3 自然语言处理任务体系

1.3.1 任务层级

按照从低层到高层的方式，可以划分为资源建设、基础任务、应用任务和应用系统四大类（见图1-1）

语言学知识库：一般包括词典、规则库等。词典（Dictionary）也称辞典（Thesaurus），除了可以为词语提供音韵、句法或者语义解释以及示例等信息，还可以提供词语之间的关系信息，如上下位、同义反义关系等。
语料库资源：指的是面向某一自然语言处理任务所标注的数据。

1.3.2 任务类别

1.3.3 研究对象与层次

自然语言处理主要涉及“名”“实”“知”“境”之间的关系，由浅入深，可以分为形式、语义、推理和语用四个层次。

1.4 自然语言处理技术发展历史

第一阶段：受到语料规模以及计算能力的限制，早期的自然语言处理主要采用基于理性主义的规则方法，通过专家总结的符号逻辑知识处理通用的自然语言现象。
第二阶段：随着计算机运算速度和存储容量的快速增加，以及统计学习方法的愈发成熟，使得以语料库为核心的统计学习方法在自然语言处理领域得以大规模应用。由于大规模的语料库中包含了大量关于语言的知识，使得基于语料库的统计自然语言处理方法能够更加客观、准确和细致地捕获语言规律。在这一时期，词法分析、句法分析、信息抽取、机器翻译和自动问答等领域的研究均取得了一定程度的成功。局限性：需要特征工程，即需要事先利用经验性规则将原始的自然语言输入转化为机器能够处理的向量形式。
第三阶段：随着基于深度神经网络的表示学习方法（也称深度学习）的兴起，该方法直接端到端地学习各种自然语言处理任务，不再依赖人工设计的特征。所谓表示学习，是指机器能根据输入自动地发现可以用于识别或分类等任务的表示。表示学习可以自动地发现有效特征，同时，还能够将不同任务在相同的向量空间内进行表示，从而具备跨任务迁移的能力。缺点：过度依赖于大规模有标注数据，而自然语言处理的“主观性”特点，以及其所面对的任务和领域众多，导致自然语言处理的标注数据往往不够充足。
第四阶段：静态词向量预训练模型、动态词向量预训练模型，特别是2018年以来，以BERT、GPT为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点。
预训练模型：即首先在一个原任务上预先训练一个初始模型，然后在下游任务（也称目标任务）上继续对该模型进行精调（Fine-tune），从而达到提高下游任务准确率的目的。在本质上，这也是迁移学习（Transfer Learning）思想的一种应用。
自监督学习：文本自身的顺序性就是一种天然的标注数据，通过若干连续出现的词语预测下一个词语（又称语言模型）就可以构成一项原任务。由于图书、网页等文本数据规模近乎无限，所以，可以非常容易地获得超大规模的预训练数据。这种不需要人工标注数据的预训练学习方法称为自监督学习。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【读书笔记】自然语言处理：基于预训练模型的方法（第1章）

第1章绪论1.1 自然语言处理的概念自然语言处理（Natural Language Processing，NLP）主要研究用计算机理解和生成自然语言的各种理论和方法，属于人工智能领域的一个重要甚至核心分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学（Computational Linguistics，CL）。1.2 自然语言处理的难点1.3 自然语言处理任务体系1.3.1 任务层级按照从低层到高层的方式，可以划分为资源建设、基础任务、应用任务和应用系统四大类...
复制链接

扫一扫

专栏目录

哈皮慧帝 CSDN认证博客专家 CSDN认证企业博客

码龄8年

59: 原创

32万+: 周排名

6万+: 总排名

7万+: 访问

: 等级

1248: 积分

21: 粉丝

51: 获赞

7: 评论

211: 收藏

私信

关注

热门文章

分类专栏

最新评论

正则表达式系列（1）——去除括号（或其他符号）及其包含的内容
夜残萤火: 什么软件来的？
python3学习系列（4）——List末尾添加新元素时append()与extend()的区别
如何进大厂: 膜拜技术大佬,来我博客指点江山吧
每天学习一点MySQL系列（4）— 在select语句中使用变量
ctotalk: 不错，学习了。
链表节点的增加和删除
哈皮慧帝回复 CHEN7_98: 只要实践过了没错那肯定就没错了，我第2点着重说明的情况是“当向一个空链表中插入一个节点时，新插入的节点就是链表的头指针，由于此时会改动头指针”，所以使用指针的指针来避免头指针被改变的情况，否则的话“出了这个函数head仍然是一个空指针”。你可以试试原来的头指针是空指针的情况，看看添加p指针后头指针是否发生变化，以及出了你的函数以后是不是仍然是空指针。
链表节点的增加和删除
CHEN7_98: 你好，请问我直接void函数不带任何参数的定义一个节点p，给p动态空间，然后按照您的方法检索出一个结点等于p，然后直接输入数据，也可以达到延长链表的功能，请问这样没错吗 [code=csharp] void Add() { system("cls"); printf("请输入联系人信息:\n"); stu *p = NULL; stu *pr = head; p = (stu*)malloc(sizeof(stu));//为新节点申请内存 if (p==NULL) { printf("No enough memory to alloc");//如果申请内存失败，则输出错误信息 exit(0); } if (head == NULL)//如果原链表为空表，则将新建节点设置为首节点 { head = p; } else//若原链表为非空，则新建节点到表尾 { while (pr->next !=NULL)//若未到表位，则继续移动指针pr { pr = pr->next; } pr->next = p;//将新建节点设置为表尾 } gets(p->name); gets(p->studentid); gets(p->phonenumber); gets(p->address); gets(p->birthland); gets(p->email); p->next=NULL; options();//返回菜单 } [/code]

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。