具体公式暂未深入理解,只有一些代码的调用。
学习时一些参考的文档
scikit-learn库中有自带的数据集,比如糖尿病病人数据集
1.样本数量442
2.每个样本10个特征
3.特征为浮点数,数据在-0.2~0.2之间
4.样本的目标在整数25~346之间
1.针对全部特征进行回归:
# -*- coding: utf-8 -*-
"""
广义线性模型
~~~~~~~~~~~~~~~~~~~~~~~~~~
LinearRegression
:copyright: (c) 2016 by the huaxz1986.
:license: lgpl-3.0, see LICENSE for more details.
"""
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model,cross_validation
from sklearn.cross_validation import train_test_split
def load_data():
'''
加载用于回归问题的数据集
:return: 一个元组,用于回归问题。元组元素依次为:训练样本集、测试样本集、训练样本集对应的值、测试样本集对应的值
'''
diabetes = datasets.load_diabetes()#使用 scikit-learn 自带的一个糖尿病病人的数据集
return train_test_split(diabetes.data,diabetes.target,
test_size=0.25,random_state=0) # 拆分成训练集和测试集,测试集大小为原始数据集大小的 1/4
def test_LinearRegression(*data):
'''
测试 LinearRegression 的用法
:param data: 可变参数。它是一个元组,这里要求其元素依次为:训练样本集、测试样本集、训练样本的值、测试样本的值
:return: None
'''
X_train,X_test,y_train,y_test=data
regr = linear_model.LinearRegression()
regr.fit(X_train, y_train)
print X_train[:,np.newaxis,0].shape
print('Coefficients:%s, intercept %.2f'%(regr.coef_,regr.intercept_))
print("Residual sum of squares: %.2f"% np.mean((regr.predict(X_test) - y_test) ** 2))
print('Score: %.2f' % regr.score(X_test, y_test))
if __name__==&#