第一章(2)
知识补充:
词性标注:就是给词语标注属性,包括名词、动词、形容词、副词、代词、数词、介词等等。
分词:是自然语言处理(NLP)中的一个基本任务,指的是将连续的文本划分为单独的单位,如单词、短语或符号。分词在文本预处理阶段起到关键作用,有助于提高后续NLP任务的性能,如句法分析、情感分析和命名实体识别等。例如:我爱你中国 可以划分成“我爱你/中国”
模型:在机器学习中,“模型”通常指的是一个数学或统计学的函数或算法,它能够从给定的数据集中学习出一些规律或者模式,并用这些规律或模式来进行预测或分类。
自然语言处理的几种方式(基本范式)
1、基于规则的方法(基于词典的方法)

- 优势:基于规则的方法从某种程度上可以说是在试图模拟人类完成某个任务时的思维过程。这类方法主要优点是直观、可解释、不依赖大规模的有标注数据,可以仅仅依靠人类的背景知识进行构建。
- 缺点:主要包括覆盖率差、大规模规则构建代价大、难度高等。规则库达到一定数量之后维护困难,新增加的规则与已有规则也容易发生冲突。不同人对于同一问题的解决思路的不同,也造成了大规模规则库中规则的不一致性,从而使得维护难度进一步提高。
2、基于机器学习的方法

(1) 数据构建阶段主要工作是针对任务的要求构建训练语料,也称为语料库(Corpus)。
例如:要设计一套针对制度法规文档主力的机器学习模型,就需要提前准备大量的制度法规语料库。
在计算机科学和人工智能领域,feature(特征)是指用于描述和区分不同类别数据的基本属性。
例如,在图像识别任务中,每个像素点的亮度、颜色和纹理都可以被视为图像的一个特征;在自然语言处理任务中,每个单词的词性、语法结构和语义信息都可以被视为文本的一个特征。
特征工程(Feature Engineering)是机器学习和数据挖掘领域的一个重要步骤,它涉及从原始数据中提取、选择和构建合适的特征,以便更好地描述和区分不同的类别数据。特征工程的质量直接影响到模型的性能和准确性。
- 难点1:基于机器学习方法的自然语言处理算法需要针对任务构建大规模训练语料,以人工特征构建为核心。整个流程中需要人工参与和选择的环节非常多,并且这些选择非常依赖经验,缺乏有效的理论支持。
- 难点2:开发一个自然语言处理算法的主要时间消耗在数据预处理、特征构建以及模型选择
和实验上。对于复杂的自然语言处理任务需要在数据预处理阶段引入很多不同的模块,这些模块之间需要单独优化,其目标并不一定与任务总体目标一致。其次多模块的级联会造成错误传播,前一步错误会影响后续的模型,这些问题都提高了基于机器学习的方法实际应用的难度。
3、基于深度学习的方法
4、基于大模型的方法

- 缺陷:模型参数量太大导致训练和使用成本过高