【NLP】天池新闻文本分类（六）——基于深度学习的文本分类3

最新推荐文章于 2023-05-07 11:06:39 发布

阿黄一号

最新推荐文章于 2023-05-07 11:06:39 发布

阅读量568

点赞数

文章标签：深度学习机器学习 python 人工智能神经网络

本文链接：https://blog.csdn.net/u011961803/article/details/107785774

版权

本文深入探讨基于Bert的新闻文本分类，包括预训练（Bert Pretrain）和微调（Bert Finetune）两个部分。预训练阶段，使用Google的Tensorflow BERT源代码，构建词表和分词器，执行掩码语言模型任务。微调阶段，取[CLS] token的隐藏向量进行分类。

摘要由CSDN通过智能技术生成

前言

本文是NLP之新闻文本分类挑战赛（赛题链接）。
的第六篇：基于深度学习得文本分类3。上一篇是基于深度学习的文本分类2，介绍Word2Vec的文本表示方法、使用TextCNN、TextRNN进行文本分类、以及使用HAN网络结构进行文本分类。本篇将介绍基于Bert的文本分类，具体包括pretrain和finetune两部分。

基于Bert文本分类

Bert Pretrain
预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据，由于本次比赛的数据都是ID，这里重新建立了词表，并且建立了基于空格的分词器。

class WhitespaceTokenizer(object):
    def __init__(self, vocab_file):
        self.vocab = load_vocab(vocab_file)
        self.inv_vocab = {v: k for k, v in self.vocab.items()}
        
    def tokenize(self, text):
        split_tokens = whitespace_tokenize(text)
        output_tokens = []
        for token in split_tokens:

最低0.47元/天解锁文章

阿黄一号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP】天池新闻文本分类（六）——基于深度学习的文本分类3

【NLP】天池新闻文本分类（六）——基于深度学习的文本分类2前言基于Bert文本分类前言本文是NLP之新闻文本分类挑战赛（赛题链接）。的第六篇：基于深度学习得文本分类3。上一篇是基于深度学习的文本分类2，介绍Word2Vec的文本表示方法、使用TextCNN、TextRNN进行文本分类、以及使用HAN网络结构进行文本分类。本篇将介绍基于Bert的文本分类。基于Bert文本分类Bert Pretrain预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训
复制链接

扫一扫