使用Excel进行逻辑回归预测-Kaggle泰坦尼克案例
背景介绍:
因为工作需要进行一些数据预测的工作,对于比较简单的预测可以用线性回归来做,Excel就自带线性回归的公式,点击几下就可以达到结果,比较简单,对于比较复杂的预测就需要用逻辑回归来进行预测
什么是线性回归:
线性回归解决变量是线性的数字,且预测结果是具体的数字,如根据各个渠道的广告费和销售额进行线性回归,拿到线性回归公式后,就可以根据指定的渠道费用预测销售额
什么是逻辑回归:
对于预测结果是分类的数据如根据一个人的特征指标如是否熬夜,是否压力大,年龄,抽烟喝酒状况预测一个人是60岁以后是否会得癌症以及根据一个邮件的标题,内容,称呼,发送时间,发送邮箱来预测一份邮件是否是垃圾邮件,对于这种根据一些特征指标(有的为具体数字如年纪,有的为类型如性别)预测结果为 是或者否的情况,我们需要使用逻辑回归来进行预测
逻辑回归怎么做:
对于逻辑回归,网上很多都是使用Python代码或者SPSS等专业软件来完成,但对于没有经验的小白或没有安装专业分析软件的,有没有一种能在Excel上操作, 像做线性回归那样点击几次鼠标就能轻松拿到结果
我先用百度查询了下逻辑回归excel的关键词,基本上很少,就算用excel也要使用复杂的公式来计算,然后谷歌搜索,使用英文 excel logistic regression,终于找到国外大神的办法,不需要什么懂公式,不需要编程, 点击几次按钮既可完成复杂的逻辑回归预测
案例介绍:
本文以excel插件(Robert Nau,美国杜克大学教授,为MBA课程开发)结合kaggle上(全球公认顶级有80万数据科学家进行机器学习竞赛的平台)网站上的案例-泰坦尼克号幸存者及遇难者名单, 使用幸存人员特征进行逻辑回归预测,找到具备如何特征的人会在这场灾难中有更高的存活率
操作步骤:
Excel插件,推荐使用
https://regressit.com/regressitlogistic.html(再次感谢Robert Nau,美国杜克大学教授)
(备选工具,http://www.real-statistics.com/free-download/)
软件截图如下
1,工具准备-Excel具体的插件安装方法