![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模式识别
zisang0210
这个作者很懒,什么都没留下…
展开
-
cascade分类器
http://blog.topspeedsnail.com/archives/10511原创 2017-10-21 15:39:56 · 805 阅读 · 0 评论 -
从决策树到GBDT
决策树非参数模型:不能用有限个参数来描述,随样本数量变化。优点:容易解释可扩展到大规模数据,不要求对特征做预处理 能处理离散和连续值混合的输入对特征的单调变换,如log、标准化等,不敏感,只与数据的排序有关;能自动进行特征选择;可处理缺失数据等。缺点:预测正确率不高。+boosing=GBDT模型不稳定,输入数据小的变化(如一两个数据点的取值变化)会带来树结构的变化。+baggi原创 2017-11-14 12:07:35 · 323 阅读 · 0 评论 -
聚类
聚类指标原创 2017-11-30 19:01:28 · 411 阅读 · 0 评论 -
点击率预估
kaggle-2014-criteo-3 Idiots数据集有13维数值型特征和26维hash编码的类别型特征。评价指标是logloss,取得了0.444的成绩。主要使用了GBDT和FFM。原创 2017-12-12 14:56:22 · 997 阅读 · 0 评论 -
因子分解机
FM(Factorization Machine)模型描述在点击率预估等任务中,10维的类别型特征做onehot编码后变成1000维特征,绝大多数特征取值为0,即特征稀疏。然后,某些稀疏特征经过关联得到的关联特征,例如“化妆品”类商品和“女”性,与label之间的相关性会提高。原创 2017-12-06 21:47:13 · 856 阅读 · 0 评论