回归分析学习与思考(1)

回归问题是做一个模型Y=f(X),其中X是个向量,Y一般是一个实数,拟合一些点(x1,y1)…(xn,yn),使得我们将来知道某个x时,能够相对准确的预测y的值。
一般情况下,y的取值有连续型和离散型两种
一、当y为连续型:
(1)x每个分量都是连续的:
第一种:x的每个分量与y呈线性关系,可以建立多元线性回归模型来拟合。
第二种:x的部分分量与y呈非线性关系,就用一些变换让其变成线性,再拟合(多项式函数或者其他的函数,可以用牛顿法等等数值分析的方法去做),如果变换的形式不明显,有可能是因为这个分量与y相关性不大,也有可能是没找到,如何去判断y与分量是有关系没找到,还是没关系呢?可以将他们的散点图画出来,然后去掉异常点,再从大部分的正常的数值来判断,如果太杂太乱,可以减少一些数据量,让图变得更清晰一些(本人目前只想到这么多)如果还是没有关系,那基本就可以认为没有关系了,因为初等函数经过初等变换还是是连续的,反映在图纸上应该在一条曲线附近。

(2)如果x的分量是离散的,又有几种情况:
第一种:分量的取值是(有,无)(是,否)(大,小)等相对应的,可以直接将其中一个取为1,另一个取为0。
第二种:离散的分量是有序的,可排列的,我觉得可以按照正常的线性回归去做。
第三种:如果是无序的要怎么做?比如城市的名字,如果这个分量取值比较多,可以先将结果相似的值合并为同一类型,再给每个类都赋值,变成有序的,这时不同的类数据量可能会有些差别,但影响应该不大,只要每个类的数据量都绝对大就好了。

二、当y为离散型:
一般采用的方式是逻辑回归,广义线性回归,当y取值为0,1时,对y做逻辑变换变成连续型变量p=(e^y)/
(1+e^y)。变换后的因变量反映的是伯努利概型的概率。
泊松回归模型用的稍微少一些,我目前也不太熟悉。

三、讨论一下自变量的各个分量之间的关系
1,都是连续的
(1)相互独立,太棒了,不用讨论了
(2)线性关系,相关系数比较高,可以将分量进行合并
(3)有一些相关性,可以具体看看散点图,找出关系,然后替代。
2,离散型+连续型
(1)独立,不讨论
(2)不独立,目前不会
3,都是离散型
(1)独立,不讨论
(2)不独立,不会
不讨论是因为涉及到概率,不知道怎么处理,不像连续型直接对应一个点,他是有一定几率发生,这样只能求个期望或者别的统计量,不知道该如何合并。
一般情况都是采用逐步回归消除多重共线性吧!
有个疑问:x1与y线性,x2与y线性,那x1与x2不就线性了吗,何来独立只说? 后来想了想,此处y是因变量,即x1可以影响y,x2可以影响y,但y不能影响x1,x2,所以没有传递性,所以x1与x2是不能相互影响的,我真是学糊涂了 = =

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值