文本特征处理——N-Gram、长度规范及数据增强

12 篇文章 5 订阅 ¥9.90 ¥99.00

目录

0 概述

1 N-Gram特征

2 文本长度规范

3 文本数据增强


0 概述

  • 文本特征处理的作用
    • 文本特征处理包括
      • 语料添加具有普适性的文本特征,如:n-gram特征。
      • 对加入特征之后的文本语料进行必要处理,如:长度规范。
    • 能够有效的将重要的文本特征加入模型训练中,增强模型评低指标。
  •  常见的文本特征处理方法
    • 添加N-Gram特征
    • 文本长度规范

1 N-Gram特征

  • What is N-Gram特征
    • 给定一段文本序列,其中n个词或字的相邻共现特征。即n-gram特征,常用的n-gram特征是bi-gram特征(二元特征)和tri-gram特征(三元特征),分别对应n为2和3。
  • 提取N-Gram特征
# 一般n-gram中的n取2或3,以n取2为例
ngram_range = 2

def create_ngram_set(input_list):
    '''
    description:从数值列表中提取所有的n-gram特征
    :param input_list:输入的数值列表&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OR_0295

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值