数据分析项目:利用fm/deepfm算法解决ctr预估问题

想深入测试下fm算法,所以我会从头到尾写一下所有的过程,有兴趣的同学可以尝试下,因为是菜鸡所以文中有问题的地方还希望大佬能够指出。目标:通过fm算法完成ctr预估问题。问题转化:由于手头没有找到ctr相关的比较合适的数据集,所以我选用kesci上二分类算法的数据集,这个数据集和广告点击的数据集很相似,它们正负样本都十分的不均衡,都是二分类任务,都是预测客户的一种状态。数据集可以从这里下载:h...
摘要由CSDN通过智能技术生成

想深入测试下fm算法,所以我会从头到尾写一下所有的过程,有兴趣的同学可以尝试下,因为是菜鸡所以文中有问题的地方还希望大佬能够指出。
目标:通过fm算法完成ctr预估问题。
问题转化:由于手头没有找到ctr相关的比较合适的数据集,所以我选用kesci上二分类算法的数据集,这个数据集和广告点击的数据集很相似,它们正负样本都十分的不均衡,都是二分类任务,都是预测客户的一种状态。
数据集可以从这里下载:https://www.kesci.com/home/competition/5c234c6626ba91002bfdfdd3/content/2
下载完后就可以开始啦hohoho

一.EDA
这个高级的词汇是什么杰宝?EDA,Exploratory Data Analysis,探索性数据分析。通过数据的可视化让人能够直观的了解到数据的大体形态和分布。我们需要在这个环境解决以下问题:
1.数据量的大小是怎样的,维度是怎样的?
2.数据是否有冗余、缺失、异常值、非平衡等?
3.数据的分布是怎样的,维度之间的关系如何?是否需要降维?
因此我们可以画出箱形图、直方图、散点图,配合单变量的中位数、四分位数、偏度、峰度等等来进行认知数据。
先瞅一眼:
在这里插入图片描述
shape:(25317, 18)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值