搞了一上午,可能还有些疏漏,大佬多多指点交流呀。
上正题
之前我们看到的传统rnn模型都是有些便于理解的,其实我觉得是演绎的:
这个图其实对于初学者挺好理解的,但是一但较真了,发现有很多说不通的地方。
从网上看到了这个图,就清晰多了, 绿色的圈圈就是input_size,也就是词向量的维度。 举个例子: 湖人总冠军 。 那么“湖”字就需要用8个数字(8个绿色圈圈)来表示让计算机可以认识。 (这里其实不太对 ,因为要分词,显然湖人是个名字,所以湖人应该是连在一起的)。
图中有4个小图片,就是4个time_step, (!!!!!很多人会把time_step和hidden_size混淆 其实不对)。
hidden_size就可以对应每个小图里面黄色的小圈圈。
output_size可以对应里面蓝色的小圈圈。 output_size和hidden_size是没有关系的,但是和hidden有关系,在hidden里做了降维提取特征这个手段。