商品情感分析

介绍

比赛链接:
https://www.heywhale.com/home/competition/609cc718ca31cd0017835fdc
内含4个数据集:
商品信息.csv (product_information.csv)
商品类别列表.csv (product_cls.csv)
训练集.csv (product_train.csv)
测试集.csv (product_test.csv)

准备数据

训练集.csv(product_train.csv)

bert可以处理的语料

我们首先将product_train.csv处理成bert能处理的语料product_review_train_bert.csv。
代码如下:

import csv
with open('data/product/product_train.csv','rt',encoding='utf-8') as f1,\
        open('data/product/product_review_train_bert.csv','wt',encoding='utf-8') as f2:
    reader = csv.reader(f1)
    for num, i in enumerate(reader):
        if num == 0:
            continue
        str1 = list(i[4]+i[5])
        str1.insert(int(len(str1)/2),'\n')
        text = "".join(str1)
        print(text)
        writer = csv.writer(f2)
        writer.writerow([text])
product_train.csv:

数据ID,用户ID,商品ID,评论时间戳,评论标题,评论内容,评分
TRAIN_0,300212.0,PRODUCT_60357,1282579200,刚到!!!!!!!!,"刚刚收到,2天我晕,一般快递最快到我们这要3天呢,赞个!!!   包装台简单了,说明书看不懂。 瓶子半透明。   问了官方,说卓越也是他们的合作伙伴,正品放心。",4.0
TRAIN_1,213838.0,PRODUCT_354315,1305561600,很好的一本书,不过这本书没有赠送什么代金券。体现不出以前的正版图书送网站学习代金券的特点。,5.0
TRAIN_2,1045492.0,PRODUCT_192005,1357747200,二手手机,"很负责任的说一句,亚马逊给我发过来的手机绝对是二手的!!",1.0
TRAIN_3,587784.0,PRODUCT_1531,1305129600,送的光盘不行,"这本书内容很好,就是送的光盘不行。这次重新订购了一套,期望发过来的光盘能用",4.0
TRAIN_4,1244067.0,PRODUCT_324528,1285689600,很实用,"很实用的一本书,非常喜欢!",5.0
TRAIN_5,3361.0,PRODUCT_4163,1346256000,关于书籍的包装,"书籍本身没有问题,货物的包装实在不敢恭维。不知出于何种考虑,先前的纸盒包装现在换成了塑料袋,拍下的两本精装书拿到手居然卷了边,超级郁闷。以此种方式来降低成本,实在不足取。省下的只是仨瓜俩枣,失去的却是人们的信任。",4.0
product_review_train_bert.csv:
"刚到!!!!!!!!刚刚收到,2天我晕,一般快递最快到我们这要3天呢,赞个!!!   包装
台简单了,说明书看不懂。 瓶子半透明。   问了官方,说卓越也是他们的合作伙伴,正品放心。"

"很好的一本书不过这本书没有赠送什么代金券。体
现不出以前的正版图书送网站学习代金券的特点。"

"二手手机很负责任的说一句,亚马逊
给我发过来的手机绝对是二手的!!"

"送的光盘不行这本书内容很好,就是送的光盘不
行。这次重新订购了一套,期望发过来的光盘能用"

"很实用很实用的一
本书,非常喜欢!"
train.csv(训练)

然后将训练集.csv中70000条数据分为train.csv(50000条),dev.csv(10000条),test.csv(10000条)
注意: 标签要从0开始
部分代码:

with open('data/product/product_train.csv','rt',encoding='utf-8') as f1,\
        open('data/product/product_review_train_train.csv','wt',encoding='utf-8') as f2,\
        open('data/product/product_review_train_dev.csv','wt',encoding='utf-8') as f3,\
        open('data/product/product_review_train_test.csv','wt',encoding='utf-8')
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值