4.1 文本预处理

文本预处理

1.1 认识文本预处理


  • 学习目标:
    • 了解什么是文本预处理及其作用.
    • 了解文本预处理中包含的主要环节.

  • 文本预处理及其作用:
    • 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

  • 文本预处理中包含的主要环节:
    • 文本处理的基本方法
    • 文本张量表示方法
    • 文本语料的数据分析
    • 文本特征处理
    • 数据增强方法

  • 文本处理的基本方法:
    • 分词
    • 词性标注
    • 命名实体识别

  • 文本张量表示方法:
    • one-hot编码
    • Word2vec
    • Word Embedding

  • 文本语料的数据分析:
    • 标签数量分布
    • 句子长度分布
    • 词频统计与关键词词云

  • 文本特征处理:
    • 添加n-gram特征
    • 文本长度规范

  • 数据增强方法:
    • 回译数据增强法

  • 重要说明:
    • 在实际生产应用中, 我们最常使用的两种语言是中文和英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.

1.2 文本处理的基本方法


  • 学习目标:
    • 了解什么是分词, 词性标注, 命名实体识别及其它们的作用.
    • 掌握分词, 词性标注, 命名实体识别流行工具的使用方法.

  • 什么是分词:
    • 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.

  • 举个栗子:
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
 
==>
 
['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值