RNN文本情感分类

最新推荐文章于 2024-07-22 22:45:34 发布

ff_dq

最新推荐文章于 2024-07-22 22:45:34 发布

阅读量1.1k

点赞数 22

文章标签： rnn 分类人工智能

本文链接：https://blog.csdn.net/m0_62500122/article/details/138186757

版权

本文介绍了如何使用RNN（如GRU或LSTM）进行情感分类，以SemEval2014Restaurants数据集为例，详细阐述了实验环境（Python+PyTorch/TensorFlow）、数据处理流程、模型参数设置、双向循环的影响以及实验结果分析。作者探讨了模型性能的可能影响因素，并指出训练过程中的问题和解决方案。

摘要由CSDN通过智能技术生成

1. 实验目的

通过动手进行模型构建深入理解RNN模型的原理和结构，学习RNN用于NLP任务，以及模型优化方法。

2. 实验平3. 实验内容

1. 实验目的

通过动手进行模型构建深入理解RNN模型的原理和结构，学习RNN用于NLP任务，以及模型优化方法。

2. 实验平台

操作系统：Windows 2000/ XP/7/8/10/11 或者 Linux

深度学习框架：pytorch，tensorflow, keras等

3. 实验内容

任务：属性级的文本情感分类任务。如句子为“这家餐厅很喜欢，味道很好，就是卫生不太行”，给定属性“味道”，情感类别为positive，给定属性“卫生”，情感类别为negative（负类，或类别标签为-1）。若无明显情感倾向，则为中性类别neutral（0）。

方法：使用一个GRU（或LSTM）模型完成情感分类。模型定义为一个继承nn.Module的类，可以直接引用torch.nn中的GRU模块。如使用双向循环，需要设置bidirectional=True，注意此时隐藏状态维度应该是单向的2倍。属性的利用方式可以参考课件，也可以自行设计。

输入层是文本的预训练词向量的序列。一个batch内的文本要进行padding，maxlen可以选择当前batch内的最大文本长度，或者自行设置一个合适的值。输出维度=hidden_size
隐藏层由GRU单元构成，输入维度和输出维度=hidden_size。
可以使用torch.nn.Dropout添加dropout，缓解模型过拟合
输出层输入维度= hidden_size，使用softmax输出单元，输出维度=类别数。

损失函数使用交叉熵，即criterion = nn.CrossEntropyLoss()

【数据集】SemEval2014 Restaurants数据集修改得到。句子文本：text，属性只需要读取aspectTerms中的属性项。例子中id=457的句子考虑属性dinner，id=1306的句子无属性，则该条样本忽略。Id=3086的句子考虑属性drinks和place，形成两条样本。

读取代码可参考：

import xml.etree.ElementTree as ET

tree = ET.parse('train.xml')

root = tree.getroot()

for sent in root.findall('sentence'):

    title = sent.find('text').text

    for child in sent:

        if child.tag == 'aspectTerms':

            for term in child:

                aspect, polarity = term.attrib['term'], term.attrib['polarity']

【词向量】实验2给出的某个100维预训练词向量

（1）请说明具体参数设置

（2）统计准确率（accuracy）、精确率(precision)、召回率（recall）、宏F1值。

实验	accuracy	precision	recall	F1
属性级分类

感兴趣的同学也可以尝试对比单层、多层、单向、多向网络的结果。

（3）对实验结果进行解释，为什么某种模型更好，分析可能的原因。

类似项目参考：

代码实践：基于LSTM网络的DEAP情感数据集情感分类_deapdataset-CSDN博客

https://blog.csdn.net/m0_63642362/article/details/124335408

一、实验环境

操作系统：Windows 10

深度学习框架：pytorch

二、实验内容及详细的完成情况

（1）读取数据

读取aspectTerms中的属性项，若无属性，忽略该样本。若有多个属性，则建立多个样本，将情感分级分别使用0（中立）,1（positive）,2(negative)表示。

def load_data(file_path):
dataset = []
tree = ET.parse(file_path)
root = tree.getroot()
for sent in root.findall('sentence'):
text = sent.find('text').text
for child in sent:
if child.tag == 'aspectTerms':
for term in child:
aspect, polarity = term.attrib['term'], term.attrib['polarity']
if polarity == 'positive':
sentiment = 1
elif polarity == 'negative':
sentiment = 2
else:
sentiment = 0 # Neutral
dataset.append((text, aspect, sentiment))
return dataset

(2)数据处理

1.将情感取向转变为tensor格式，以便后续模型训练处理。

2.将文本(test)按空格分成一个个token,再转为词向量（Glove）（每个token 100维）,并将每条文本长度固定位100个token,多切少补，以便size统一，方便处理。最后将text转成的嵌入embeddings转成tensor。

def preprocess_text(text, maxlen=100):
tokens = text.split()
embeddings = [torch.from_numpy(word_embeddings[token]) if token in word_embeddings else torch.zeros_like(torch.from_numpy((word_embeddings['the']))) for token in tokens]
if len(embeddings) > maxlen:
embeddings = embeddings[:maxlen]
elif len(embeddings) < maxlen:
embeddings.extend([torch.zeros_like(torch.from_numpy((word_embeddings['the'])))] * (maxlen - len(embeddings)))
return torch.stack(embeddings)