以商品评价数据集为例,使用bert进行情感分析。 数据集来源: https://github.com/SophonPlus/ChineseNlpCorpus
Step1 导包
Step2 加载数据集
这个数据集共包含720 万条评论,包含用户ID,商品ID,评分,时间,评论标题,评论内容这六个字段。看一下第一条数据。
Step3 数据集预处理
在数据集中,rating,title,comment分别表示评分,评价标题,评价内容。我们仅使用rating和comment,剔除数据集中rating或comment为空的数据
使用分词器进行编码数据
进行数据处理
看一下处理完的数据集,并保存到本地,方便下次直接加载
Step4 划分数据集
把整个数据集按比例划分为训练集和测试集
最终的数据集如下,训练集360w条,测试集40w:
Step5 创建模型
Step6 创建评估函数
Step7 创建TrainingArguments
Step8 创建Trainer
Step9 模型训练
接下来就是漫长的等待时间了,最终训练结果如下:
Step10 模型预测
预测结果:
代码地址
更多内容
- 小鱼吃猫博客——Transformers教程
- 微信公众号 codeCraft编程工艺