机器学习-LSTM中的几个参数理解

最新推荐文章于 2024-06-19 08:11:40 发布

Gaosiy

最新推荐文章于 2024-06-19 08:11:40 发布

阅读量3k

点赞数 1

分类专栏：机器学习文章标签： lstm 深度学习

本文链接：https://blog.csdn.net/huiyuanliyan/article/details/128393651

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

背景介绍

时间序列的处理使用RNN更为有效。但RNN中的一些参数理解起来与CNN差别很大，这篇文章主要梳理一下RNN中LSTM架构的几个关键参数以及如何理解这些参数。

以pytorch为例，我们首先看一下LSTM网络的构建过程

class RNN(nn.Module):
    def __init__(self):
        super(RNN, self).__init__()

        self.rnn = nn.LSTM(
            input_size=1,  
            hidden_size=64, 
            num_layers=1,  
            batch_first=True, 
        )
        self.out = nn.Linear(64, 2) 

    def forward(self, x):
        r_out, (h_n, h_c) = self.rnn(x, None) 
        out = self.out(h_n[0])
        return out

我们使用一个比较简单理解的例子来解释一下这几个主要参数的含义，比如我们用30天的买东西的数据来预测第31天的，每天采集一组数据，这组数据可以表示为

day1 : {面包：5个，泡面3个，火腿肠2个，卤蛋2个，可乐2个}

day2 : {面包：3个，泡面1个，火腿肠2个，卤蛋1个，可乐1个}

以此类推

这里我们可以看到，我们一共有30天的数据，每天的数据包含5个种类。

input_size

特征的长度，在我们的例子中，就是每一天的数据中包含几个维度，这里就是5。如果是做自然语言处理，那embedding之后的size就是这个input_size。通常数据维度越多可能会使预测更准，但是会带来维度灾难的问题，维度达到某个程度以后，不但性能不一定会提升，还会打来巨大的计算消耗，这里需要使用者自己去权衡。