一、概述
通过使用BERT对IMDB影视数据进行分析的案例,来了解从数据收集与处理,模型实现,数据导入模型训练,到完成线上部署与测试的这样一个开发实践的过程。
1.数据收集
从下列地址下载影视评论测试数据:
数据包含了对电影的评论信息(review列)和情感分类标签(sentiment列),标签分为positive和negative两类:
2.测试结果
为了节省模型训练时间,本次的训练数据只选取了整个下载数据集5万条数据中的1000条,但是由于训练数据量只有1000条,导致BERT模型训练效果不好,从训练结果看,得到的negative和positive的区分度不高,如果使用更多的数据如训练数据量达到5万条左右时,positive的值可以达到0.97左右,而negative的值则下降到0.02左右,从而极大地提高了模型的训练精确度。
下图是使用1000条数据训练后得到的结果:
二、源码实