基于BERT做中文文本分类(情感分析)

最新推荐文章于 2025-04-15 19:51:57 发布

我开心呀

最新推荐文章于 2025-04-15 19:51:57 发布

阅读量3.1w

点赞数 33

分类专栏：自然语言处理实验文章标签： bert nlp 情感分析文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36812990/article/details/102313322

版权

本文介绍了如何利用BERT模型进行中文文本分类，特别是情感分析任务。首先，文章概述了BERT的预训练概念及其在NLP领域的优势。接着，详细讲述了环境搭建、模型与预训练模型下载、数据准备、代码修改以及模型训练和预测的过程。在训练过程中，重点提到了参数调整以适应内存限制。最后，讨论了预测结果的处理和数据不平衡对结果准确性的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bert：

BERT是一种预训练语言表示的方法，这意味着我们在大型文本语料库（例如Wikipedia）上训练通用的“语言理解”模型，然后将该模型用于我们关心的下游NLP任务，BERT优于之前的方法，因为它是第一个用于预训练NLP的无监督，深度双向系统。

相关论文：

《Attention Is All You Need》

《BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding》

之后可能会出一篇详解bert原理的文章。

一、环境搭建：

Tensorflow>=1.11.0 我使用的1.12.0

Python 3.6.8

使用GPU训练（官网说显存要求大于12g）

服务器：1080Ti 32G

二、下载模型：

下载bert：https://github.com/google-research/bert
下载bert预训练模型：https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip

三、数据准备：

将你的语料分成3个文件，分别为train.csv，test.csv，dev.csv三个(我使用的是csv文件，它与tsv区别就是分隔符号的不同，我直接将csv的分隔符‘，’转成‘\t’)，放入新建data文件夹下。

具体操作：

我的语料来自于情感分析比赛的，是判断新闻标题情感积极消极还是中性，首先使用pandas对语料进行处理，最终处理成“label+content”的格式。如图所示：

将语料分割成三个文件：我分割的比例是8:1:1，可以按照自己的比例进行分割。

#!/usr/bin/env python
import os
import pandas as p

最低0.47元/天解锁文章

博客等级

码龄9年

20
原创

85
点赞

681
收藏

36
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

tensorboard使用中的坑(ValueError:Duplicate plugins for name projector)
昭乌达: 解决了，感谢
tensorboard使用中的坑(ValueError:Duplicate plugins for name projector)
chlhoa: 有用，解决了
tensorboard使用中的坑(ValueError:Duplicate plugins for name projector)
看，佩奇: 一个训练程序一个端口号，就是一个python train.py一个端口号
基于BERT做中文文本分类(情感分析)
weixin_71661385: 想请问一下，这是怎么回事，该怎么救啊 (myenv) weibang@weideMacBook-Air bert % ./run.sh usage: run_classifier.py [-h] --data_dir DATA_DIR --bert_config_file BERT_CONFIG_FILE --task_name TASK_NAME --vocab_file VOCAB_FILE --output_dir OUTPUT_DIR [--init_checkpoint INIT_CHECKPOINT] [--do_lower_case DO_LOWER_CASE] [--max_seq_length MAX_SEQ_LENGTH] [--num_train_epochs NUM_TRAIN_EPOCHS] [--learning_rate LEARNING_RATE] [--train_batch_size TRAIN_BATCH_SIZE] [--do_train DO_TRAIN] [--do_eval DO_EVAL] [--do_predict DO_PREDICT] data_dir task_name vocab_file bert_config_file output_dir train_batch_size learning_rate num_train_epochs run_classifier.py: error: the following arguments are required: data_dir, task_name, vocab_file, bert_config_file, output_dir, train_batch_size, learning_rate, num_train_epochs
基于chatterbot制作聊天机器人
将心ONE: 你好训练是一问一答的形式，那么如果是说了几句话才得到回应，博主是怎么处理的

最新文章

目录

展开全部

收起

评论 54

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。