在上一篇对通过使用SQL嘉定2018年二手房数据进行分析中,
https://zhuanlan.zhihu.com/p/49037202
总结了几个不足点:
1、数据预处理及分析过程粗糙;
2、数据的分析停留表面,未能给出直接有效的建议。
在一段时间对统计学的学习以及各种分析案例的深入思考后,考虑对原有数据建模处理,通过回归分析确定各个因子的影响度,数据化呈现的结果更具说服力和参考价值。
STEP1 用虚拟变量表示定性数据
![2811b76d439b5047757ac44cb6a8875f.png](https://i-blog.csdnimg.cn/blog_migrate/d98da2b2f1e10ebca473d9a4c6046b8a.jpeg)
a.将部分缺失数据,取平均值法进行填充;
b.将定性数据转为定量数据,如装修情况,用1表示精装,0表示毛坯;配备电梯,用1表示有,0表示无。
![c8185e0762eccd51953f9b0e3e6c90df.png](https://i-blog.csdnimg.cn/blog_migrate/dcda08709a0953ea6c0fe1c46ea590d1.jpeg)
数据定量完成后,共计18个因子,