fm, ffm
fm相对于一般的lr,它的好处在于
1. 引入了交叉项;
2. 对一些从未见过的例子也能做出预测。比如:以前只有女性看化妆品的例子,现在要求男性看化妆品的概率。 理论上讲,如果完全拟合,两个隐向量乘出来得到的值应该也是0,但是由于正则项的存在,就能得到一个合理的值。
ffm就是加入了Field(域)的概念,同一个域内的特征不会互相叉乘。
fm的隐向量如果乘出来系数很高,那么可以让lr去加入这个交叉特征,这有点类似于GBDT与LR的融合。
附两个介绍FM的文章链接
http://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html
http://www.52caml.com/head_first_ml/ml-chapter1-regression-family/
xgboost
xgboost的有个参数是min_child_weight, 那么它所谓的hessian值究竟意义何在?
每次更新的权重是和hessian值有关,但是叶子上的score并不等于hessian值,我的理解是这里应该是min_child_weight = score * num_of_samples,所以这里还没想明白。
附相关链接
1. 另一个人也问了hessian的问题
2. chentq的ppt
3. xgboost 浅入浅出
4. xgboost调参指南