机器学习(4)-多元线性回归

一个唯一的因变量和多个自变量 之间的关系
这里自变量在处理之前不仅仅是数值型
上图:
这里写图片描述
我们要做的也就是,寻找到最佳的b0、b1、…….bn
这里有关于50个公司的数据:
这里写图片描述
spend1、2、3代表了公司在某三个方面的花销,state是公司的的地址,profit则是公司去年的收入。现在要选择目标公司,要求绩效最好,也就是利用前四列的数据预测profit。
但是我们发现,y=b0+b1*x1+b2*x2+b3*x3+b4*h 当中的h一定是个数值的,就是state不同引起h的不同,将state分成三列,每一列对应一个地址,将这三列的数据转化成虚拟变量
就是说beijing是0时,上海便是1,hangzhou我们是完全可以忽略的,因为两列数据确定数值以后,对应的第三列的数据便知道了
最终呢,我们只是将这个一列包含三种地址的数据,转换成了两列,每一列只有0或1的数据


到上一部的数据处理 加上测试集与测试集的操作

dataset = pd.read_csv('
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值