机器学习

最新推荐文章于 2024-07-25 17:16:01 发布

jose_yubin

最新推荐文章于 2024-07-25 17:16:01 发布

阅读量182

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq351564759/article/details/79570550

版权

13 篇文章 0 订阅

订阅专栏

简单易知的不可能数值
比如身高12米的人
组合属性判定
地区在米国但是IP地址在大陆的新闻用户
补齐可对应的缺省值
- 缺失值很多的字段考虑不用
很多情况正负样本不均衡
- 电商情况下，用户点击／购买的商品
- 疾病患者和健康人
- 大多数模型对正负样本敏感，比如逻辑回归（LR）。这是因为如果正样本特别多，那么损失函数中正样本所占比例就更大，因为损失函数就是一个个样本误差叠加起来的，如果正样本对损失函数贡献的特别多，那么对负样本就不公平。如果极限考虑，会把负样本考虑成噪音。
- 随机采样和分层采样
正负样本不均衡处理办法
- 正样本>>负样本,量都很大，下采样，把正样本按20%比例抽出来，有的时候可能会考虑着分层抽样，为了保证原本维持着的比例不破坏
- 正样本>>负样本,量不是很大
  - 采集更多数据
  - oversampling，把更少的样本添加噪音，重复使用
  - 修改损失函数，给予相应的权重弥补，代价敏感学习

数值型（连续值）
- 幅度调整scaling／归一化normalization
- log变化
- 统计值max，min，mean，std
- 离散化／Hash分桶
  分多少桶，要结合场景确定，实验尝试
  - cut：等步长
  - qcut：等频切分，会随着数据的改变而需要重新计算样本分布，保证样本在0～20%和20%～40%之间的分布个数一样
类别型
- one-hot编码／哑变量
- Hash与聚类处理
时间类
pandas转化为时间类型，统计一周的第几天等
文本型
统计型
- 最大值
- 最小值
- 均值
组合特征
- 单纯的2个特征组合，类似笛卡尔乘积
- 使用GBDT+LR，就是使用GBDT对样本进行分类，从根结点到叶节点的一条线路有n个节点，也就是n个特征，这条线路的组合看成一个组合特征。然后把组合特征放到LR中。这样得到的组合特征和最后的权重非常好解释，并且简单
特征选择
- 有时候造出来的特征之间关联度很高，造成计算性能的浪费
- 部分造出来的特征对结果有负作用，属于噪音
降维和特征选择是不同的
- 特征选择就是从一些特征中直接剔除掉一些对结果影响没那么大的特征
- 降维是对原始特征进行计算，组合，缩特征个数，但是维持着特征之间的关系，这样样本之间的关联程度或者相似程度的依赖还在

哪部分预测错了，什么特征导致分错，这些base-case有没有共性，再挖掘

bagging
一般是由基模型组成，这些学习器有放回的从样本中取部分数据来训练，这样就有很多机会使得噪音数据不每次都选进来，最后投票或者求平均的时候噪音的影响就会减少。这样不太会导致过拟合了～
随机森林
由dt基模型组成，不太和bagging相同，不仅样本取一部分，特征也每次只取一部分。然后最后由多个决策树投票
stacking
上一层的成员学习模型结果拿过来，再做一次总结，拟合，由于这样很容易导致过拟合，因为上一层的成员模型拿到的都是全量数据，因此在第二层使用最简单的线性模型拟合
adaboost
gbdt