术语及定义
1、因变量
dependent variable 需要预测的变量
2、自变量
independent variable 用来预测因变量值的一个或多个变量
3、回归分析
利用统计学方法建立一个表示变量之间相互关系的方程称为回归分析
4、简单线性回归
只包含一个自变量和一个因变量的回归分析。简单线性回归方程的图形是一条直线,b0值代表y轴的截距,b1值代表斜率。
计算方法
最小二乘法,公式如下:
b
1
=
∑
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
(
x
i
−
x
ˉ
)
2
b1=\frac{\sum \left ( x_{i} - \bar{x} \right )(y_{i}-\bar{y})}{\sum (x_{i}-\bar{x})^{2}}
b1=∑(xi−xˉ)2∑(xi−xˉ)(yi−yˉ)
b
0
=
y
ˉ
−
b
1
x
ˉ
b0=\bar{y}-b1\bar{x}
b0=yˉ−b1xˉ
实现代码
package com.math.regression;
import org.apache.commons.math3.stat.descriptive.moment.Mean;
/***
* least squares method
* @author miaoyibo
*
*/
public class RegressionEquation {
private double[] dependentValues;
private double[] independentValues;
public RegressionEquation(double[] dependentValues, double[] independentValues) {
this.dependentValues = dependentValues;
this.independentValues = independentValues;
}
public double getMean(double[] dd) {
Mean meanUtil = new Mean();
return meanUtil.evaluate(dd);
}
public double[] getRegressionModel() {
if(dependentValues.length!=independentValues.length) {
return null;
}
Mean meanUtil = new Mean();
double xmean=meanUtil.evaluate(independentValues);
double ymean=meanUtil.evaluate(dependentValues);
double numerator=0d;
double denominator=0d;
for(int i=0;i<dependentValues.length;i++) {
double x=independentValues[i];
double y=dependentValues[i];
numerator=numerator+(x-xmean)*(y-ymean);
denominator=denominator+(x-xmean)*(x-xmean);
}
double b1=numerator/denominator;
double b0=ymean-b1*xmean;
double[] model= {b0,b1};
return model;
}
}