2020年01月_然后就去远行吧

原创 CS224n——lecture3课程导学

1.1 复习第一周课程内容1.1.1 word vector词向量的表示方法一般有两种，一种是one-hot representation(独热编码，稀疏表达)，还有一种是distributed representation（稠密表达），一般用到的都是分布式表达的词向量表示方法。word2vec是稠密表达的一种算法，是一种自编码的无监督训练算法。word2vec有两种模型，一种是CBOW，一...

2020-01-10 18:52:10 164

原创深度模型中的梯度消失和梯度爆炸

当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为L的多层感知机的第lll层H(l)H^{(l)}H(l)的权重参数为W(l)W^{(l)}W(l)，输出层H(L)H^{(L)}H(L)的权重参数为W(L)W^{(L)}W(L)。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射ϕ(x)=x\phi(x)=xϕ(x)=x。给定输入XXX，多层感知机的第lll层的输出H(...

2020-01-08 18:09:57 402

原创如何理解协方差矩阵？PCA降维是怎么使用到协方差矩阵的？

1.统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先给定一个含有n个样本的集合，下面给出这些概念的公式描述：均值：x‾=∑i=1nxin\overline{x}=\frac{\sum_{i=1}^nx_i}{n}x=n∑i=1nxi标准差：s=∑i=1n(xi−x‾)2n−1s = \sqrt{\frac{\sum_{i=1}^n(x_i-\overline{x...

2020-01-07 15:59:22 1158

原创 PCA和线性回归之间的关系如何？

PCA和线性回归是完全不同的两个算法，尽管看上去有一些相似。我们用图来描述一下，用左图表示线性回归，当给定某个输入特征量x时，预测出某变量y的值。在线性回归中，要做的是拟合一条直线...

2020-01-07 08:43:56 3881

原创基于物品的相似度还是基于用户的相似度

基于物品的相似度计算的时间会随着物品数量的增加而增加，基于用户的相似度计算的时间则会随着用户数量的增加而增加。如果有一个商店，那么最多会有几千件商品。如果用户数量很多，可能倾向于使用基于物品相似度的计算方法。对于大部分产品导向的推荐系统而言，用户的数量往往大于物品的数量，即购买商品的用户数量会多于出售的商品种类。...

2020-01-06 21:05:45 955

原创总体方差和样本方差

在统计描述中，方差用来计算每一个变量*（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式：σ2=∑(X−μ)2N\sigma^2=\frac{\sum(X-\mu)^2}{N}σ2=N∑(X−μ)2公式中σ2\sigma^2σ2为总体方差，XXX为变量，μ\muμ为总体均值，NNN为总体例数。...

2020-01-03 08:57:01 15627

原创 1295. 统计位数为偶数的数字（to_string 将整型数字变为字符串）

给你一个整数数组 nums，请你返回其中位数为偶数的数字的个数。示例 1：输入：nums = [12,345,2,6,7896]输出：2解释：12 是 2 位数字（位数为偶数）345 是 3 位数字（位数为奇数）2 是 1 位数字（位数为奇数）6 是 1 位数字位数为奇数）7896 是 4 位数字（位数为偶数）因此只有 12 和 7896 是位数为偶数的数字来源：力...

2020-01-02 20:07:54 229

然后就去远行