我正在研究不平衡类的顺序标签问题,我想使用sample_weight来解决不平衡问题.基本上如果我训练模型大约10个时代,我会得到很好的结果.如果我训练更多的时代,val_loss不断下降,但我的结果更糟.我猜测模型只是检测到更多的优势类而不利于较小的类.
该模型有两个输入,用于字嵌入和字符嵌入,输入是从0到6的7个可能类之一.
使用填充,用于字嵌入的输入层的形状是(3000,150),并且用于字嵌入的输入层是(3000,150,15).我使用0.3分割来测试和训练数据,这意味着用于字嵌入的X_train是(2000,150)和(2000,150,15)用于字符嵌入. y包含每个单词的正确类,以7维的单热矢量编码,因此其形状为(3000,150,7). y同样分为训练和测试集.然后将每个输入馈入双向LSTM.
输出是一个矩阵,其中为2000个训练样本的每个单词分配了7个类别之一,因此大小为(2000,150,7).
首先,我只是尝试将sample_weight定义为长度为7的np.array,其中包含每个类的权重:
count = [list(array).index(1) for arrays in y for array in arrays]
count = dict(Counter(count))
count[0] = 0
total = sum([count[key] for key in count])
count = {k: count[key] / total for key in count}
category_weights = np.zeros(7)
for f in count:
category_weights[f] = count[f]
但是我得到以下错误ValueError:找到一个带有shape(7,)的sample_weight数组,用于输入形状(200