天池离线赛——移动推荐算法学习笔记3_基于模型的预测

参考代码:https://blog.csdn.net/snoopy_yuan

该部分主要是基于模型的预测;

包括数据预处理(处理数据不平衡问题),LR模型预测等;

数据预处理部分思想:首先数据严重不平衡(1:3k),这里采用下采样的办法处理;为避免下采样失去了数据原本的分布特征,所以先使用kmeans聚类;然后在每个类别上取sub_sample;与正样本组成训练集。

1. 机器学习中数据不平衡的处理:

数据不平衡:数据分布不均匀;

解决方法:

1)采样:又分为上采样和下采样;

上采样:复制多遍小规模的数据;

下采样:删除部分大规模的数据;

2)数据合成

3)一分类
4)加权

详见参考链接;

参考:https://www.cnblogs.com/zhaokui/p/5101301.html


2. 归一化处理

对不同度量尺度的特征进行归一化处理,使用sklearn.preprocessing.StandardScaler()


下面是用逻辑回归解决该问题:

1. 回顾了一下逻辑回归是什么(其实是重新学习了一下= =)

简单来说,对于一个二分类问题,设最终分类目标为y,其有两个取值0或1。训练的目的就是,输入一个特征向量x,训练得到参数w和b&

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值