python自然语言处理-bert实战_文本分类实战（十）—— BERT 预训练模型

最新推荐文章于 2023-04-15 00:45:25 发布

weixin_39999025

最新推荐文章于 2023-04-15 00:45:25 发布

阅读量3k

点赞数

文章标签： python自然语言处理-bert实战

本文链接：https://blog.csdn.net/weixin_39999025/article/details/111444278

版权

1 大纲概述文本分类这个系列将会有十篇左右，包括基于word2vec预训练的文本分类，与及基于最新的预训练模型(ELMo，BERT等)的文本分类。总共有以下系列：2 数据集数据集为IMDB 电影影评，总共有三个数据文件，在/data/rawData目录下，包括unlabeledTrainData.tsv，labeledTrainData.tsv，testData.tsv。在进行文本分类时需要有标签...

摘要由CSDN通过智能技术生成

1 大纲概述

文本分类这个系列将会有十篇左右，包括基于word2vec预训练的文本分类，与及基于最新的预训练模型(ELMo，BERT等)的文本分类。总共有以下系列：

2 数据集

数据集为IMDB 电影影评，总共有三个数据文件，在/data/rawData目录下，包括unlabeledTrainData.tsv，labeledTrainData.tsv，testData.tsv。在进行文本分类时需要有标签的数据(labeledTrainData)，数据预处理如文本分类实战(一)—— word2vec预训练词向量中一样，预处理后的文件为/data/preprocess/labeledTrain.csv。

3 BERT预训练模型

BERT 模型来源于论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT模型是谷歌提出的基于双向Transformer构建的语言模型。BERT模型和ELMo有大不同，在之前的预训练模型(包括word2vec，ELMo等)都会生成词向量，这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT，GPT，BERT等都属于模型迁移。

BERT 模型是将预训练模型和下游任务模型结合在一起的，也就是说在做下游任务时仍然是用BERT模型，而且天然支持文本分类任务，在做文本分类任务时不需要对模型做修改。谷歌提供了下面七种预训练好的模型文件。

BERT模型在英文数据集上提供了两种大小的模型，Base和Large。Uncased是意味着输入的词都会转变成小写，cased是意味着输入的词会保存其大写(在命名实体识别等项目上需要)。Multilingual是支持多语言的，最后一个是中文预训练模型。

在这里我们选择BERT-Base，Uncased。下载下来之后是一个zip文件，解压后有ckpt文件，一个模型参数的json文件，一个词汇表txt文件。

在应用BERT模型之前，我们需要去github上下载开源代码，我们可以直接clone下来，在这里有一个run_classifier.py文件，在做文本分类项目时，我们需要修改这个文件，主要是添加我们的数据预处理类。clone下来的项目结构如下：

在run_classifier.py文件中有一个基类DataProcessor类，其代码如下：

classDataProcessor(object):"""Base class for data converters for sequence classification data sets."""

defget_train_examples(self, data_dir):""

最低0.47元/天解锁文章

weixin_39999025

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python自然语言处理-bert实战_文本分类实战（十）—— BERT 预训练模型

1 大纲概述文本分类这个系列将会有十篇左右，包括基于word2vec预训练的文本分类，与及基于最新的预训练模型(ELMo，BERT等)的文本分类。总共有以下系列：2 数据集数据集为IMDB 电影影评，总共有三个数据文件，在/data/rawData目录下，包括unlabeledTrainData.tsv，labeledTrainData.tsv，testData.tsv。在进行文本分类时需要有标签...
复制链接

扫一扫

python自然语言处理-bert实战_文本分类实战（十）—— BERT 预训练模型

“相关推荐”对你有帮助么？