在该分析中,互联网商家或公司可以使用逻辑回归来说明某个特定的互联网用户是否点击了广告。并试图尝试创建一个模型,根据用户的特征来预测他们是否会点击广告。
首先简要介绍一下数据集的特征值:
此数据集包含以下特征变量:¶
“上网时间/日”:消费者花费在网站上的时间(分钟)
“年龄”:以年为单位的用户年龄
“地区收入”:消费者所处地理区域的平均收入
“每日互联网使用”:消费者每天上网的平均分钟数
“性别”:消费者性别
“时间戳”:消费者点击广告或关闭窗口的时间
“单击广告”:0表述未点击广告,1表示点击广告
一、导入分析所需要的程序模块:
二、读取数据:
三、数据描述和数据清洗:
以上结果可以看出,数据不存在缺失值,除了’时间戳‘,均为量化数据。
四、探索性数据分析(EDA):
进行关键数据的可视化描述:
1、年龄:
简单结论:30-40年龄段的人数最多。
2、地区收入与用户年龄关系图:
似乎没有一个明确的关系呈现,但可以基本认为高收入区域的低年龄人群较为密集。
3、年龄与用户每天互联网使用时间关系描述:
年龄与互联网使用时间呈正态分布,较低年龄用户上网时间较多,尤其是是30岁左右的人,其次是40岁左右的人群。
4、个变量相关性描述:
其中蓝色代表未点击广告,红色代表点击广告。从中可以看出大多数用户会点击广告,基本与上网时间、地区收入、年龄呈正相关。
五、逻辑回归理论
逻辑回归是两类问题的线性分类算法。它易于实现,易于理解,并且在各种各样的问题上都能得到很好的结果。
最后运用Sigmoid函数总结该分析,Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。 在信息科学的数据分析应用中,可以看到其单增的性质,将变量映射到0,1之间。