Gavin老师Transformer直播课感悟 - 使用BERT对IMDB影视数据进行分析

本文通过使用BERT和Hugging Face的Transformer库,分析IMDB影视评论数据,探讨数据处理、模型训练和线上部署的过程。在有限的数据量下,模型训练效果有待提升,随着数据量增加,模型精确度提高。源码实践中,详细展示了BERT模型的集成和训练,以及使用Flask进行模型部署和在线测试的方法。
摘要由CSDN通过智能技术生成

一、概述

       通过使用BERT对IMDB影视数据进行分析的案例,来了解从数据收集与处理,模型实现,数据导入模型训练,到完成线上部署与测试的这样一个开发实践的过程。

1.数据收集

从下列地址下载影视评论测试数据:

 数据包含了对电影的评论信息(review列)和情感分类标签(sentiment列),标签分为positive和negative两类:

 2.测试结果

为了节省模型训练时间,本次的训练数据只选取了整个下载数据集5万条数据中的1000条,但是由于训练数据量只有1000条,导致BERT模型训练效果不好,从训练结果看,得到的negative和positive的区分度不高,如果使用更多的数据如训练数据量达到5万条左右时,positive的值可以达到0.97左右,而negative的值则下降到0.02左右,从而极大地提高了模型的训练精确度。

下图是使用1000条数据训练后得到的结果:

二、源码实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值