一 稀疏特征
什么是稀疏特征?
离散值特征(有限的范围选择),比如性别只能是男女
可以用one-hot表示。
稀疏特征的重要特性:
稀疏特征可以进行叉乘(两个稀疏特征的组合)展现所有样本的所有特征的可能性,那么就可以假设任一新的样本可以落在特征中。
优点:
善于处理重复样本,广告点击预估,推荐算法。应用广泛
缺点:
需要人工设计,无法准确罗列所有特征。
可能会过拟合,因为一个样本不可能罗列出所有的特征,并且特征间可能会有重复,比如:我很开心,我很快乐会被当成两种不同的样本,泛化困难。
二 密集矩阵
什么是密集特征?
向量表达(可以用向量的差距衡量信息的差距):密集特征是特征向量的集合。
Word2vec工具:可以将word转化为vector
优点:带有语义信息,不同向量之间具有相关性
兼容没有出现过的特征组合
特征是训练出来的。
缺点:
过度泛化,结果不相关
三 wide,deep 和wide&deep模型
Wide模型是把one-hot每一位都作为输入直接连接到输出。Deep模型就是DNN。
Wide&Deep显然就是combine了一下,由Google提出,并且应用在google play