03_机器学习相关笔记——特征工程(3)

03_机器学习相关笔记——特征工程(3)

  1. 在许多实际问题中常常需要面对欧中高维特征,简单地两两组合容易存在参数过多,过拟合的问题。
  2. 可以使用基于决策树的方式来寻找有效的组合特征。
  3. 梯度提升决策树,每次在之前构建的决策树的残差上构建下一棵决策树。
  4. 文本表示模型:词袋模型、N-gram模型、主体模型、词嵌入和深度学习模型。
  5. 词袋模型,将每篇文章看成一袋子词 ,并忽略每个词出现的顺序。每篇文章用一个长向量表示,每个维度表示一个单词,该维度反映了对应词在文章中的重要程度,常用TF-IDF计算其重要程度。
  6. TF-IDF(t,d)=TF(t,d)×IDF(t)
  7. TF表示词频,当前单词在当前文档中的频率。
  8. IDF表示逆文档频率,衡量当前单词对表达语义的重要程度。IDF(t)=log(文章总数/包含单词的文章总数+1)。IDF的直观解释为:如果一个单词在多数文章中出现则表明是一个较为通用的词汇,对于区分文章特殊语义的贡献较小,需要对权重做一定的惩罚。
  9. 词袋模型将文章中的所有的词汇都拆分开了,这样会使得相邻连贯的词汇分隔开,导致词汇的语义表达发生变化。可以将连续的几个单词作为一个整体用一个特征来表示(N-gram模型)。
  10. 在N-gram模型实际使用中,一般会对单词进行词干提取处理,将不同词性的单词统一成为同一词干的形式。
    注:笔记内容来源于《百面机器学习》
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值