Pytorch 实现情感分类

1. 背景说明

        本实验使用Twitter上发布的数据集Sentiment140,包含160W条记录,三个分类,其中{0: 负面;2: 中性;4: 正面},但真实数据集中并未发现“中性”数据,即正负样本各80W。

1.1 数据集预览

1. 数据信息预览

print(dataset.info())

2. 显示前5条数据:

3. 数据分布(各个类别占比)

print(dataset[0].value_counts())

 

2. 数据加载与探索

2.1 类别标签转换

将label标签转换为0、1两个类别

def transform_lable_to_01(input_path, output_path, sample_path):
    dataset = pd.read_csv(input_path, engine='python', header=None, encoding='utf-8')
    # 类型转换 --> 分类变量
    dataset['sentiment_category'] = dataset[0].astype('category')
    # 将类别变量转换为0和1两个类别
    dataset['sentiment'] = dataset['sentiment_category'].cat.codes

    # 查看分布
    # print(dataset['sentiment'].value_counts())
    dataset.to_csv(output_path, header=None, index=None)
    # 随机选择1K个样本当作测试集
    dataset.sample(10000).to_csv(sample_path, header=None, index=None)

if __name__ == '__main__':
    data_path = '../data/training.1600000.processed.noemoticon.csv'
    data_processed_path = '../data/training_processed.csv'
    data_sample_path = '../data/test_sample.csv'
    transform_lable_to_01(data_path, data_processed_path, data_sample_path)

2.2 分隔训练集、测试集、验证集

from torchtext.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值