Hierarchical Attention Networks(HAN)

板烧鱼仔

已于 2024-07-26 18:30:01 修改

阅读量1.1k

点赞数 2

文章标签：网络 java nlp 自然语言处理深度学习

于 2020-06-27 17:44:01 首次发布

本文链接：https://blog.csdn.net/kesisour/article/details/107481972

版权

HAN是一种用于文档分类的深度学习模型，通过词级和句子级的注意力机制捕获文本的上下文信息。模型首先编码词向量，然后使用双向RNN整合单词的注释信息形成句子向量。接着，对句子应用注意力操作得到句向量，再通过双向RNN处理以获取篇章级信息。最后，通过全连接网络完成分类任务。

摘要由CSDN通过智能技术生成

HAN模型由paperHierarchical Attention Networks for Document Classification提出，模型结构如下图：

模型自下而上结构如下：
Enbedding -> Bidirectional RNN(GRU/LSTM) -> Attention -> Bidirectional RNN(GRU/LSTM) -> Attention -> FullyConnectedLayer -> Sigmoid/Softmax

Word Encoder: 对词汇进行编码，建立词向量。接着用双向 RNN 从单词的两个方向汇总信息来获取单词的注释，因此将上下文信息合并到句子向量中。
Word Attention 对每句话的词语进行 Attention 操作，最后每句话都有一个特征向量，可以看做句向量。
Sentence Encoder 与 Word Encoder 相似，对句子级别也使用双向 RNN 获取上下句的信息。
Sentence Attention 与 Word Attention 相似，对所有句子进行 Attention 操作，获得一个每个句子加权平均作为整个输入的特征向量。
Document Classification 常规全连接网络

其中，Attention 机制大概就是一个 MLP + softmax:

class SelfAttention(nn.Module):
 
    def __init__(self, input_size, hidden_size):
        super(SelfAttention, self).__init__()
        self.W = nn.Linear(input_size, hidden_size, True)
        self.u = nn.Linear(hidden_size, 1)
 
    def forward(self, x):
        u = torch.tanh(self.W(x))
        a = F.softmax(self.u(u), dim=1)
        x = a.mul(x).sum(1)
        return x

代码实现

#%%

import torch
import numpy as np
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as Data
import torch.nn.functional as F
dtype = torch.FloatTensor
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 
class SelfAttention(nn.Module):
 
    def __init__(self, input_size, hidden_size):
        super(SelfAttention, self).__init__()
        self.W = nn.Linear(input_size, hidden_size, True)
        self.u = nn.Linear(hidden_size, 1)
 
    def forward(self, x):
        u = torch.tanh(self.W(x))
        a = F.softmax(self.u(u), dim=1)
        x = a.mul(x).sum(1)
        return x
 
 
class HAN(nn.Module):
 
    def __init__(self):
        super(HAN1, self).__init__()
        num_embeddings = 5844 + 1
        num_classes = 10
        num_sentences = 30
        num_words = 60
 
        embedding_dim = 200  
        hidden_size_gru = 50 
        hidden_size_att = 100  
 
        self.num_words = num_words
        self.embed = nn.Embedding(num_embeddings, embedding_dim, 0)
 
        self.gru1 = nn.GRU(embedding_dim, hidden_size_gru, bidirectional=True, batch_first=True)
        self.att1 = SelfAttention(hidden_size_gru * 2, hidden_size_att)
 
        self.gru2 = nn.GRU(hidden_size_att, hidden_size_gru, bidirectional=True, batch_first=True)
        self.att2 = SelfAttention(hidden_size_gru * 2, hidden_size_att)
 
        self.fc = nn.Linear(hidden_size_att, num_classes, True)
 
    def forward(self, x):
        x = x.view(x.size(0) * self.num_words, -1).contiguous()
        x = self.embed(x)
        x, _ = self.gru1(x)
        x = self.att1(x)
        x = x.view(x.size(0) // self.num_words, self.num_words, -1).contiguous()
        x, _ = self.gru2(x)
        x = self.att2(x)
        x = self.fc(x)
        x = F.log_softmax(x, dim=1)  # softmax
        return x

板烧鱼仔

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
Hierarchical Attention Networks(HAN)

HAN模型由paperHierarchical Attention Networks for Document Classification提出，模型结构如下图：模型自下而上结构如下：Enbedding -> Bidirectional RNN(GRU/LSTM) -> Attention -> Bidirectional RNN(GRU/LSTM) -&...
复制链接

扫一扫