回归系数的解释
思考: y = b + b1*Inx;此时b1怎么解释?
什么时候取对数
经验法则:
- (1)与市场价值相关的,例如,价格、销售额、工资等都可以取对数;
- (2)以年度量的变量,如受教育年限、工作经历等通常不取对数;
- (3)比例变量,如失业率、参与率等,两者均可;
- (4)变量取值必须是非负数,如果包含0,则可以对y取对数ln(1+y);
取对数的好处
(1)减弱数据的异方差性(2)如果变量本身不符合正态分布,取了对数后可能渐近服从正态分布(3)模型形式的需要,让模型具有经济学意义。
四类模型回归系数解释
- 一元线性回归
- 双对数模型
- 半对数模型
- 半对数模型
特殊的变量——虚拟变量
如果自变量中有定性变量,例如性别、地域等,在回归中要怎么处理呢?
此时就要用到虚拟变量
比如虚拟变量x,x=0表示为女性,x=1表示为男性.
此时需要选定参照对象,求出x的相关系数为b的时候,表明其他条件一定的情况下
平均女性比男性多b
回归实例
stata的使用
数据导入
记得把代码保存下来,可以放在论文中.
数据描述性统计
- 定量数据
sum 团购价元 评价量 商品毛重kg
- 定性数据
tab 奶源产地,gen(A)
回归语句
- 普通回归
reg y x1 x2 x3 ·····
- 含虚拟变量
reg 评价量 团购价元 商品毛重kg A1 A2 A3 A4 A5 A6 A7 A8 A9
Stata会自动检测数据的完全多重共线性问题。
Excel数据透视
- 先将原有数据变成表
然后进行数据透视
可以生成对应的图形用于分析。
完整分析
- 虚拟变量加入
tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)
- 回归
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace//这个插件导出为docx文档
拟合优度较低怎么办
(1)回归分为解释型回归和预测型回归。预测型回归一般才会更看重𝑅。
解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可。
(2)可以对模型进行调整,例如对数据取对数或者平方后再进行回归。
(3)数据中可能有存在异常值或者数据的分布极度不均匀。
我们采用的一般是调整后的R!
原因:
我们引入的自变量越多,拟合优度会变大。但我们倾向于使用调整后的拟合优度,
如果新引入的自变量对SSE的减少程度特别少,那么调整后的拟合优度反而会减小。
标准化回归系数
当还要考虑哪种变量影响的因素最大的时候,我们需要进行标准化处理.
标准化系数的绝对值越大,说明对因变量的影响就越大(只关注显著的回归系数)
regress y x1 x2 … xk,beta
stata软件破解版获取请关注公众号,发送"stata"即可
本文由博客一文多发平台 OpenWrite 发布!