【NLP】天池新闻文本分类(六)——基于深度学习的文本分类3

本文深入探讨基于Bert的新闻文本分类,包括预训练(Bert Pretrain)和微调(Bert Finetune)两个部分。预训练阶段,使用Google的Tensorflow BERT源代码,构建词表和分词器,执行掩码语言模型任务。微调阶段,取[CLS] token的隐藏向量进行分类。
摘要由CSDN通过智能技术生成

【NLP】天池新闻文本分类(六)——基于深度学习的文本分类2

前言

本文是NLP之新闻文本分类挑战赛(赛题链接)。
的第六篇:基于深度学习得文本分类3。上一篇是基于深度学习的文本分类2,介绍Word2Vec的文本表示方法、使用TextCNN、TextRNN进行文本分类、以及使用HAN网络结构进行文本分类。本篇将介绍基于Bert的文本分类,具体包括pretrain和finetune两部分。

基于Bert文本分类

Bert Pretrain
预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据,由于本次比赛的数据都是ID,这里重新建立了词表,并且建立了基于空格的分词器。

class WhitespaceTokenizer(object):
    def __init__(self, vocab_file):
        self.vocab = load_vocab(vocab_file)
        self.inv_vocab = {v: k for k, v in self.vocab.items()}
        
    def tokenize(self, text):
        split_tokens = whitespace_tokenize(text)
        output_tokens = []
        for token in split_tokens:
           
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值