背景:工作中会遇到需要将一些被指数化的数据还原为真实值的情况,于是需要用真实数据与对应的指数来拟合出二者的关系
工具:SPSS
数据:两列,一列是搜索热度指数,一列是搜索点击次数,共11802条,无缺失值
导入数据到SPSS
2. 先画个散点图,看下数据之间是否具有某种关系
图形 - 旧对话框 - 散点图/点图 - 简单散点图 - 定义,设置X轴与Y轴数据 - 确定
3. 画出的散点图如下图所示,可以看出是有很强烈的相关性的
4. 在SPSS的输出框中,双击此图形,弹出“图表编辑器”
5. 在图形上右键-添加总计拟合线
6. 图形上会自动拟合出一条线性的线,很显然线性不能很好的拟合这些点,于是双击那条直线,弹出“属性”框
7. 进入“拟合线”这个属性,拟合方法中有5种拟合方法,这里可以尝试上面4种,每选中一种,然后点下面的“应用”,可以在左侧图中看到曲线的样子及对应的R方(R方越大越好),还有相应的公式
8. 通过对比发现“立方”比“二次项”能让更多的点落在线上,但是这两种方法对应的R方都是1,这里我们选择“二次项”作为最终的拟合方法(二次项比立方简单,立方容易产生过拟合现象)
9. 曲线就这样拟合好了,但是我们的目的是把方程拿到手,总不能从那个图上,手动的把方程扣下来呀。于是呢,双击方程的那个横框,弹出它的“属性”菜单,选择“参考线”,当当,方程式就在下面啦。
ok,至此已经把方程式拟合出来了,可以用来转化新的搜索热度了。(可以返回去看下预估值与真实值之间的误差的,如果误差较大,超出了我们能容忍的范围,需要分段进行拟合)