【数据竞赛】长文本竞赛上分的三种策略。

作者:杰少

长文本处理上分策略

简 介

在诸多文本相关的问题中,我们不可避免的会遇到很多长短不一的文本,有的文本很短就是一句话,但有的文本则很长,有上好几千的文字甚至上万多文字,

  • 如果我们设置截取的文本长度较长,会浪费非常多的资源,这些长文本往往是长尾分布,出现的不多;

  • 如果我们不考虑这些长文本,依然默认截取长度300的文本,则这些长文本的预测效果可能会较差一些,

那么怎么办呢?本文提供三种长文本的上分技巧。

三种长文本截取策略

01


随机采样

该策略很简单,因为长度很长,那么我们可以从较长的文本中随机采样一定长度的文本来表示我们的当前文本。但是优点和缺点都比较明显。

  • 简单,能近似全局文本的信息,效果有的时候还不错,但也会有波动

02


截取heads & tails的文本

该策略基于下面的假设:

  • 文本的开头和结尾的信息量是非常大的,往往是一些总结性的语句;

所以直接摘取开头或者末尾的文本效果在诸多类的策略中能带来很不错的效果。

03


组合策略

该策略则更为粗暴和高效,既然上面的策略都有一定的缺陷,那么我们干脆直接全部采用,类似于对数据进行扩充,然后预测的时候直接将三者策略的预测结果求均值作为最终的预测结果。

代码

摘取Heads & Tails

'''
    摘自:https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/discussion/97443
'''

def convert_lines(example, max_seq_length, tokenizer, heads = True):
    max_seq_length -= 2
    all_tokens = []
    longer = 0
    for text in tqdm_notebook(example):
        tokens_a = tokenizer.tokenize(text)
        if len(tokens_a) > max_seq_length:
            if heads:
                tokens_a = tokens_a[:max_seq_length]
            else:
                tokens_a = tokens_a[-1*max_seq_length:]
            longer += 1
        one_token = tokenizer.convert_tokens_to_ids(["[CLS]"] + tokens_a + ["[SEP]"]) + [0] * \
                    (max_seq_length - len(tokens_a))
        all_tokens.append(one_token) 
    return np.array(all_tokens)

适用问题

适用于所有长短文本不一的问题中,经常可以带来较大的提升。

参考文献

  1. 29th LB And LB 0.94376 for single Bert-Base


往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808,加入微信群请扫码:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值