最近在做答辩,每天做一点,记录在博客里,权当是知识的回顾。
题目要求:
根据以往的电话营销的数据,对用户进行分析,提取有价值的信息,并预测是否响应电话营销。
包含两份数据集
1.bank-additional-full.csv,包含所有数据集,并按日期进行排序,从2008年5月到2010年11月。
2.bank-additional.csv,包含10%的样本,这些样本是随机从bank-additional-full.csv中抽取的。
这份小数据集是用来测试对计算精度要求更高的机器学习算法。
二分类目标是预测客户是否将订阅银行期限存款(变量y)。
数据集包括20个变量(x)和一个目标变量(y)
变量信息:
数值型变量
age:年龄;
duration:最后一次通话时间,单位为秒(数字)。**注释:这个变量高度影响目标变量,用于基准目的,应该被舍弃**;
campaign:此次营销活动联系某一特定客户的次数;(包括上一次联系)
previous :此次营销活动之前联系某一客户的次数;
pdays:距离上次联系某一客户经过的天数(999表示之前未联系客户);
emp.var.rate:就业变化率 - 季度指标(数字)
cons.price.idx:消费者价格指数 - 月度指标(数字)
cons.conf.idx:消费者信息指数-月度指标(数字)
euribor3m:euribor 3月费率 - 每日指标(数字)
nr.employed:员工人数 - 季度指标(数字)
分类型变量
job:工作('行政','蓝领','企业家','女佣','管理','退休','个体经营','服务',' ,“技术员”,“失业”,“未知”);
matital:婚姻状况(分类:'离婚','已婚','单身','未知';注:“离婚”是指离婚或丧偶)
education:教育('basic.4y', 'basic.6y', 'basic.9y',‘中学’,‘不识字’,‘专科’,‘学士学位’。‘未知’)
default:是否存在信用违约(‘是’,‘否’,‘未知’)
housing:是否存在住房贷款(‘是’,‘否’,‘未知’)
loan:是否有个人的贷款(‘是’,‘否’,‘未知’)
contact:联系的方式(‘固定电话