文本预处理
1.1 认识文本预处理
-
学习目标:
-
了解什么是文本预处理及其作用.
-
了解文本预处理中包含的主要环节.
-
-
文本预处理及其作用:
-
文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.
-
-
文本预处理中包含的主要环节:
-
文本处理的基本方法
-
文本张量表示方法
-
文本语料的数据分析
-
文本特征处理
-
数据增强方法
-
-
文本处理的基本方法:
-
分词
-
词性标注
-
命名实体识别
-
-
文本张量表示方法:
-
one-hot编码
-
Word2vec
-
Word Embedding
-
-
文本语料的数据分析:
-
标签数量分布
-
句子长度分布
-
词频统计与关键词词云
-
-
文本特征处理:
-
添加n-gram特征
-
文本长度规范
-
-
数据增强方法:
-
回译数据增强法
-
-
重要说明:
-
在实际生产应用中, 我们最常使用的两种语言是中文和英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.
-
1.2 文本处理的基本方法
-
学习目标:
-
了解什么是分词, 词性标注, 命名实体识别及其它们的作用.
-
掌握分词, 词性标注, 命名实体识别流行工具的使用方法.
-
-
什么是分词:
-
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.
-
-
举个栗子:
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
==>
['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']