lstm 根据前文预测词_论文分享|NER系统预测阶段的可解释性分析及其改进方法...

本文探讨了LSTM-CRF和BERT在命名实体识别(NER)中的预测可解释性。实验表明,上下文表示对系统性能有帮助,但主要依赖于学习到的实体本身。人工评估显示,仅根据上下文推断实体类型仍有改进空间。未来工作将关注如何更好地利用上下文信息和结合不同特征。
摘要由CSDN通过智能技术生成

作者:余厚金

论文题目:Interpretability Analysis for Named Entity Recognition to Understand System Predictions and How They Can Improve

作者:Oshin Agarwal

年份:2020

来源:Arxiv

网址:https://arxiv.org/pdf/2004.04564.pdf

1. 摘要

NER系统在诸如英语新闻之类的领域上取得了卓越的性能。很自然地会问:这些模型实际上可以学到什么来实现这一目标?只是记住token本身吗?还是能够解释文本并从上下文中推断出正确的实体类型?我们通过对比LSTM-CRF架构的几种变体的性能来研究这一问题,其中一些变种仅提供了上下文作为特征。我们还对BERT进行了类似的实验,我们发现上下文表示确实有助于系统性能,但是驱动高性能的主要因素是学习名称令牌本身。我们邀请人工注释者来评估仅从上下文推断实体类型的可行性,发现仍有一定的空间改善。一个系统应该能够根据上下文就正确识别出实体类别,而我们的实验表明,更好地利用上下文的信息可能会进一步改善当前的系统。

2. 问题

先前的工作表明,在训练数据中看不到的实体的性能会下降,另一方面,即使在同一数据集中使用不同的实体集切换实体也依然效果下降明显,实体切换如下表所示:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,让我们开始使用Keras中的LSTM模型进行时间序列预测。 首先,让我们导入所需的库: ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt from keras.models import Sequential from keras.layers import Dense, LSTM from sklearn.preprocessing import MinMaxScaler ``` 接下来,我们将加载数据并进行预处理: ```python # 加载数据 data = pd.read_csv('data.csv', index_col=0) # 将数据转换为numpy数组 dataset = data.values # 将数据类型转换为浮点型 dataset = dataset.astype('float32') # 将数据缩放至0到1的范围内 scaler = MinMaxScaler(feature_range=(0, 1)) dataset = scaler.fit_transform(dataset) # 将数据拆分为训练数据和测试数据 train_size = int(len(dataset) * 0.67) test_size = len(dataset) - train_size train_data, test_data = dataset[0:train_size, :], dataset[train_size:len(dataset), :] # 将数据转换为适合LSTM输入的格式 def create_dataset(dataset, look_back=1): X, Y = [], [] for i in range(len(dataset) - look_back - 1): a = dataset[i:(i + look_back), 0] X.append(a) Y.append(dataset[i + look_back, 0]) return np.array(X), np.array(Y) look_back = 5 train_X, train_Y = create_dataset(train_data, look_back) test_X, test_Y = create_dataset(test_data, look_back) # 将输入数据重塑为LSTM输入的3D格式 train_X = np.reshape(train_X, (train_X.shape[0], 1, train_X.shape[1])) test_X = np.reshape(test_X, (test_X.shape[0], 1, test_X.shape[1])) ``` 现在,我们将创建LSTM模型并进行训练: ```python # 创建LSTM模型 model = Sequential() model.add(LSTM(4, input_shape=(1, look_back))) model.add(Dense(1)) model.compile(loss='mean_squared_error', optimizer='adam') model.fit(train_X, train_Y, epochs=100, batch_size=1, verbose=2) # 使用训练好的模型进行预测 train_predict = model.predict(train_X) test_predict = model.predict(test_X) # 将预测结果反缩放回原始范围 train_predict = scaler.inverse_transform(train_predict) train_Y = scaler.inverse_transform([train_Y]) test_predict = scaler.inverse_transform(test_predict) test_Y = scaler.inverse_transform([test_Y]) # 计算均方根误差 train_score = np.sqrt(mean_squared_error(train_Y[0], train_predict[:, 0])) test_score = np.sqrt(mean_squared_error(test_Y[0], test_predict[:, 0])) print('Train Score: %.2f RMSE' % (train_score)) print('Test Score: %.2f RMSE' % (test_score)) ``` 最后,我们将绘制训练和测试数据的预测结果以及实际值: ```python # 绘制训练数据的预测结果和实际值 train_predict_plot = np.empty_like(dataset) train_predict_plot[:, :] = np.nan train_predict_plot[look_back:len(train_predict) + look_back, :] = train_predict plt.plot(scaler.inverse_transform(dataset)) plt.plot(train_predict_plot) plt.show() # 绘制测试数据的预测结果和实际值 test_predict_plot = np.empty_like(dataset) test_predict_plot[:, :] = np.nan test_predict_plot[len(train_predict) + (look_back * 2) + 1:len(dataset) - 1, :] = test_predict plt.plot(scaler.inverse_transform(dataset)) plt.plot(test_predict_plot) plt.show() ``` 这就是使用Keras中的LSTM模型进行时间序列预测的基本流程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值