raw 数据——>能被学习的数据的过程:特征工程
分类:离散的输出空间
回归:连续的输出空间
线性分类器:
D维的空间映射到K维的空间的空间,W=W*D维
向量的点积:其物理意义是计算两个变量之间的相关度和相似性
softmax:输出的是概率空间
y
i
y_i
yi是一个独热编码列向量,
y
i
^
\hat{y_i}
yi^也是列向量
所以
L
i
=
−
y
i
.
l
o
g
(
y
i
^
)
L_i=-y_i.log(\hat{y_i})
Li=−yi.log(yi^),
y
i
=
1
y_i=1
yi=1,
数据损失,过拟合的风险
L2Norm:在相同结果的原则下,优先选择权重小的值,原因:不希望输入变化一点点时带来很大的输出变化。
L1 norm的形式相当于做一次特征选择,W为0时相当于把一部分特征过滤掉了,LASSO,
a:0.1-0.3
当模型参数远远大于样本个数时,容易过拟合(方程个数大于未知数)
1.测试时不做dropout,相当于做了融合,能够提高预测能力
batch-size的大小影响loss的幅度,要让loss变小,batch-size需要增大
增加训练的数据
embedding: 语义相关性
特征关联
FM layer:干特征工程的事=Dense embedding中的特征之间的内积