背景:一方面有流量的企业希望最大化广告收益;另一方面需要流量的个体希望最小化广告投放成本但同时最大化效果,这就是一个博弈的过程。
目前市面上流行的百度信息流、微信朋友圈投广都是基于这类的博弈过程。你可以设想一下: 假如有几家公司想在百度投放广告,但是广告位是有限的,那这时候该选择哪一家的广告呢? 这里就有一个很关键的概念,叫作竞价!
也就是谁出的钱越多,就放谁的, 但这里有一个很重要的前提:是否用户会点击广告! 如果一个用户没有点击广告其实也赚不到钱,即便出价很高。所以这就衍生出了一个极其重要的问题:如何提升用户的点击率?
所以除了价格,AI算法也需要通过判断一个广告被一个用户点击的概率来决定要不要呈现给这个用户。这就是广告点击率问题。
一个用户属性和广告属性匹配时,点击率自然会变高。那具体的匹配的概率又如何计算呢? 这就是这次项目要解决的问题。
The project is from Kaggle, Avazu
https://www.kaggle.com/c/avazu-ctr-prediction
在项目里,也需要用到特征选择、参数搜索、以及F1的评估方法。
准确率(Accuracy)
acc = # of correct / # of total
准确率的缺陷
假设实际1000个病人里有2个人有癌症,
一个系统对于所有的检测,都判断为非癌症,那么
准确率 = 998 /