- 博客(7)
- 收藏
- 关注
原创 CS224n——lecture3课程导学
1.1 复习第一周课程内容1.1.1 word vector词向量的表示方法一般有两种,一种是one-hot representation(独热编码,稀疏表达),还有一种是distributed representation(稠密表达),一般用到的都是分布式表达的词向量表示方法。word2vec是稠密表达的一种算法,是一种自编码的无监督训练算法。word2vec有两种模型,一种是CBOW,一...
2020-01-10 18:52:10 164
原创 深度模型中的梯度消失和梯度爆炸
当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为L的多层感知机的第lll层H(l)H^{(l)}H(l)的权重参数为W(l)W^{(l)}W(l),输出层H(L)H^{(L)}H(L)的权重参数为W(L)W^{(L)}W(L)。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射ϕ(x)=x\phi(x)=xϕ(x)=x。给定输入XXX,多层感知机的第lll层的输出H(...
2020-01-08 18:09:57 402
原创 如何理解协方差矩阵?PCA降维是怎么使用到协方差矩阵的?
1.统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:x‾=∑i=1nxin\overline{x}=\frac{\sum_{i=1}^nx_i}{n}x=n∑i=1nxi标准差:s=∑i=1n(xi−x‾)2n−1s = \sqrt{\frac{\sum_{i=1}^n(x_i-\overline{x...
2020-01-07 15:59:22 1158
原创 PCA和线性回归之间的关系如何?
PCA和线性回归是完全不同的两个算法,尽管看上去有一些相似。我们用图来描述一下,用左图表示线性回归,当给定某个输入特征量x时,预测出某变量y的值。在线性回归中,要做的是拟合一条直线...
2020-01-07 08:43:56 3881
原创 基于物品的相似度还是基于用户的相似度
基于物品的相似度计算的时间会随着物品数量的增加而增加,基于用户的相似度计算的时间则会随着用户数量的增加而增加。如果有一个商店,那么最多会有几千件商品。如果用户数量很多,可能倾向于使用基于物品相似度的计算方法。对于大部分产品导向的推荐系统而言,用户的数量往往大于物品的数量,即购买商品的用户数量会多于出售的商品种类。...
2020-01-06 21:05:45 955
原创 总体方差和样本方差
在统计描述中,方差用来计算每一个变量*(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2公式中σ2\sigma^2σ2为总体方差,XXX为变量,μ\muμ为总体均值,NNN为总体例数。...
2020-01-03 08:57:01 15627
原创 1295. 统计位数为偶数的数字(to_string 将整型数字变为字符串)
给你一个整数数组 nums,请你返回其中位数为 偶数 的数字的个数。示例 1:输入:nums = [12,345,2,6,7896]输出:2解释:12 是 2 位数字(位数为偶数)345 是 3 位数字(位数为奇数)2 是 1 位数字(位数为奇数)6 是 1 位数字 位数为奇数)7896 是 4 位数字(位数为偶数)因此只有 12 和 7896 是位数为偶数的数字来源:力...
2020-01-02 20:07:54 229
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人