基于预测分析表法的语法分析程序_你的内容会被’点击‘吗?基于广告点击的预测分析...

在该分析中,互联网商家或公司可以使用逻辑回归来说明某个特定的互联网用户是否点击了广告。并试图尝试创建一个模型,根据用户的特征来预测他们是否会点击广告。

e04557f43b14ded4087b6942cdea9e23.png

首先简要介绍一下数据集的特征值:

此数据集包含以下特征变量:¶

“上网时间/日”:消费者花费在网站上的时间(分钟)

“年龄”:以年为单位的用户年龄

“地区收入”:消费者所处地理区域的平均收入

“每日互联网使用”:消费者每天上网的平均分钟数

“性别”:消费者性别

“时间戳”:消费者点击广告或关闭窗口的时间

“单击广告”:0表述未点击广告,1表示点击广告

一、导入分析所需要的程序模块:

23cfb62d6d8ebaa1ff317d997ba8de4c.png

二、读取数据:

6e8bb8d94b3bcc05227a0ee329ee06f6.png

三、数据描述和数据清洗:

2de59be12c1c07a2c432d923d205e408.png

以上结果可以看出,数据不存在缺失值,除了’时间戳‘,均为量化数据。

四、探索性数据分析(EDA):

进行关键数据的可视化描述:

1、年龄:

199fe905aa431da628c73ce27a0aed99.png

简单结论:30-40年龄段的人数最多。

2、地区收入与用户年龄关系图:

c04ceb1f9b7ff01e187c54b0d738422a.png

似乎没有一个明确的关系呈现,但可以基本认为高收入区域的低年龄人群较为密集。

3、年龄与用户每天互联网使用时间关系描述:

01387e3915f09721c157490439e17c64.png

年龄与互联网使用时间呈正态分布,较低年龄用户上网时间较多,尤其是是30岁左右的人,其次是40岁左右的人群。

4、个变量相关性描述:

b4253286b0dde5b68e451031003d1b20.png

其中蓝色代表未点击广告,红色代表点击广告。从中可以看出大多数用户会点击广告,基本与上网时间、地区收入、年龄呈正相关。

五、逻辑回归理论

逻辑回归是两类问题的线性分类算法。它易于实现,易于理解,并且在各种各样的问题上都能得到很好的结果。

最后运用Sigmoid函数总结该分析,Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。 在信息科学的数据分析应用中,可以看到其单增的性质,将变量映射到0,1之间。

3381a3595d89e5ea08f50da80c8c54be.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值