统计学习方法_李航
binlin1209
这个作者很懒,什么都没留下…
展开
-
embedding层和全连接层的区别是什么?
二者概念不太一样embedding目的是把一个高纬的,每个维度上相对稀疏的数据投影到相对低维的,每个维度可以取实数集的数据操作。本质上是用连续空间替代(准)离散空间,以增加空间利用率,减少不必要的parameter。nlp和推荐系统里的embedding,输入数据就是word id或item ID,也就是one hot encoding,输入维度就是词的个数,每个维度上取01,空间利用率极低。这种情况下,一般的embedding的实现方式就是一个用全连层,输入维度高,输出维度低。当然embeddibg也可以原创 2021-01-08 10:15:59 · 1451 阅读 · 0 评论 -
信息熵
信息熵也被称为熵,用来表示所有信息量的期望。softmax值,就是该元素的指数与所有元素指数和的比值原创 2020-07-14 16:00:54 · 346 阅读 · 0 评论 -
拉格朗日乘子法如何理解
拉格朗日乘子法如何理解?拉格朗日乘数法(Lagrange multiplier)有很直观的几何意义。举个2维的例子来说明:假设有自变量x和y,给定约束条件g(x,y)=c,要求f(x,y)在约束g下的极值。我们可以画出f的等高线图,如下图。此时,约束g=c由于只有一个自由度,因此也是图中的一条曲线(红色曲线所示)。显然地,当约束曲线g=c与某一条等高线f=d1相切时,函数f取得极值。两曲线相切...转载 2018-05-09 19:24:17 · 1009 阅读 · 0 评论