bert模型用于二分类问题微调

weixin_42924890

于 2024-05-29 15:06:46 发布

阅读量154

点赞数 3

分类专栏： bert 文章标签： bert 分类 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42924890/article/details/139296334

版权

bert 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

使用bert-base-chinese预训练模型对二分类问题进行微调

import pandas as pd
from transformers import BertTokenizerFast, AutoModelForSequenceClassification, Trainer, TrainingArguments
import torch

model_name = "./bert-base-chinese"
path = "./abuse_22.csv"


df = pd.read_csv(path, encoding="utf-8")
texts = df["content"][:1000].tolist()
labels = df["punish_result"][:1000].tolist()
texts = list(map(lambda x: str(x), texts))

class Dataset(torch.utils.data.Dataset):

    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item['labels'] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.labels)
    

model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
tokenizer = BertTokenizerFast.from_pretrained(model_name)

# 参考这里 https://blog.csdn.net/weixin_42924890/article/details/139269528
train_encodings = tokenizer(texts, truncation=True, padding=True, max_length=512)
encodings = Dataset(train_encodings, labels)


args = TrainingArguments(output_dir='./output_dir',
                         evaluation_strategy='epoch',
                         no_cuda=True,
                         num_train_epochs=2,
                         learning_rate=1e-4,
                         weight_decay=1e-2,
                         per_device_eval_batch_size=32,
                         per_device_train_batch_size=32)


trainer = Trainer(
    model=model,
    args=args,
    train_dataset=encodings,
)

# 开始训练
trainer.train()

weixin_42924890

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
bert模型用于二分类问题微调

使用bert-base-chinese预训练模型对二分类问题进行微调。
复制链接

扫一扫

专栏目录

weixin_42924890 CSDN认证博客专家 CSDN认证企业博客

码龄6年

45: 原创

2万+: 周排名

2万+: 总排名

2万+: 访问

: 等级

1018: 积分

404: 粉丝

563: 获赞

17: 评论

426: 收藏

私信

关注

热门文章

分类专栏

Git 1篇
mysql 1篇
机器学习 7篇
python 6篇
bert 2篇
pandas 3篇
matplotlib 2篇

最新评论

matplotlib绘图二
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
matplotlib绘图
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
激活函数理解
CSDN-Ada助手: 恭喜您写了第20篇博客，标题为“激活函数理解”！您对这一主题的深入探讨让读者受益匪浅。希望您能继续坚持写作，分享更多有价值的内容。下一步，或许您可以尝试探讨一些实际案例，结合具体的应用场景来讲解激活函数的作用，这样读者更容易理解和接受。期待您的下一篇作品！
RNN实战
CSDN-Ada助手: 恭喜用户发布第18篇博客《RNN实战》，内容相信又会给读者们带来新的启发和学习收获。不断坚持创作，展示自己的学习和思考成果，是非常值得肯定的。接下来可以考虑深入探讨RNN在特定领域的应用，或者结合其他深度学习模型进行比较分析，这样能够让读者更全面地了解相关知识。希望用户继续保持创作热情，共同进步！
Python 合并两张图片
CSDN-Ada助手: 恭喜您发布了新的博客文章！看到您分享的关于Python合并两张图片的教程，我感到非常兴奋。您的文章内容详细易懂，让我受益匪浅。接下来，我建议您可以尝试探索更多关于图片处理的主题，比如图片滤镜效果、图片裁剪等，相信您会有更多精彩的内容呈现给读者。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。