自然语言处理-基于预训练模型的方法-读书笔记（一）

小蜗牛的梦想

已于 2022-05-17 14:56:28 修改

阅读量361

点赞数

分类专栏： NLP 文章标签：自然语言处理人工智能 nlp

于 2022-05-14 14:24:54 首次发布

本文链接：https://blog.csdn.net/qq_39525042/article/details/124767652

版权

2 篇文章 0 订阅

订阅专栏

自然语言处理-基于预训练模型的方法-读书笔记

1.自然语言处理（NLP）主要研究用于计算机理解和生成自然语言的各种理论和方法，常被称为计算语言学（CL）
2.AI发展：运算智能——>感知智能——>认知智能

计算机处理自然语言的困难在于：

	自然语言的高度抽象性
	近乎无穷变化的语义组合性
	无处不在的歧义性和进化性

语言由抽象符号构成，符号表示现实世界中的复杂概念

每种语言的基本符号单元有限，但是可以组合成无限的语义

语言的形式和语义之间存在多对多的对应关系导致的

语言都是不断发展进化的，一方面新的词汇不断出现；另一方面旧的词汇被赋予新的含义

网上的文本存在一些非规范的文本，例如音近词、单词的简写或变形、错别字等等

NLP问题具有一定的主观性，这为数据标注、准确评价系统的性能带来了一定的困难

理解语言通常需要背景知识以及基于这些知识的推理能力

NLP任务由于目标和数据各不相同，很难使用统一的技术和模型

按照从低层到高层的方式，NLP任务可划分为：

资源建设
包括语言学知识库的建设、语料库资源的建设
1). 语言学知识库：一般包括词典、规则库等。词典，可以为词语提供音韵、句法或者语义解释以及示例等信息，还可以提供词语之间的关系信息，如上下位、同义反义关系等。
2). 语料库资源：面向某一NLP任务所标注的数据
基础任务
包括分词、词性标注、句法分析和语义分析等，不直接面向终端用户，主要为上层应用任务提供所需的特征
应用任务
信息抽取、情感分析、问答系统、机器翻译、对话系统等
应用系统
指的是NLP技术再某一领域上的综合应用，又被称为NLP+

基于理性主义的规则方法
以语料库为核心的统计学习方法
基于深度神经网络的表示学习方法

关注