机器学习之正则化

最新推荐文章于 2018-08-03 19:57:28 发布

bigwigwind

最新推荐文章于 2018-08-03 19:57:28 发布

阅读量456

点赞数

分类专栏： LEARNING FROM DATA 文章标签：机器学习正则化过拟合 Python

本文链接：https://blog.csdn.net/bigwigwind/article/details/43405219

版权

LEARNING FROM DATA 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文中链接：

Yaser S. Abu-Mostafa

LEARNING FROM DATA

数据生成

#!/usr/bin/python
"""
    这段代码的主要内容包括选择随机系数生成单变量二次多项式，调整系数，和生成五个有噪音的随机数据点，详细解释见代码。
"""

from numpy import poly1d
from scipy.integrate import quad
from numpy.random import normal
from numpy.random import uniform
import numpy as np
### f(x)=a*x**2 + b*x + c
### 随机系数a,b,c,服从标准正太分布
#cof = normal(size=3)
cof = np.array([1.,-1.,.25])
f = poly1d(cof)
### 调整系数cof，假设输入空间[0,1],并且均匀分布,概率密度P(x)=1
### 调整系数使得f(x)的平方的期望值为1，即Ex[f(x)**2]=1，目的是使得信噪比有意义
g = lambda x: f(x)**2
result,error=quad(g,0,1)
f = poly1d(cof/(result**.5))
result,error=quad(g,0,1)
print result
X = np.linspace(0, 1, 100)
y = f(X)
import matplotlib.pyplot as plt
plt.plot( X,y)
### 生成5个数据点，输出噪音强度为theta
theta=.1
dX = uniform(size=5)
dy = f(dX) + theta*normal(size=5)
plt.scatter(dX, dy, color="r", label="train")
### X变换到Z空间Z={x**0,x**1,x**2,x**3,x**4}
from sklearn.preprocessing import PolynomialFeatures
dX = dX.reshape(5,1)
poly = PolynomialFeatures(6)
dZ = poly.fit_transform(dX)
### 线性拟合
from sklearn import linear_model
clf = linear_model.LinearRegression(fit_intercept=False)
clf.fit(dZ,dy)
plt.plot(X,clf.predict(poly.fit_transform(X.reshape(100,1))))
plt.xlim([0,1.])
plt.ylim([0,1.])
plt.show()

线性回归

#!/usr/bin/python
"""
    这段代码的主要内容包括简单线性拟合和带有正则器的线性拟合，详细解释见代码。
"""
from numpy import poly1d
from scipy.integrate import quad
from numpy.random import normal
from numpy.random import uniform
import numpy as np
cof = np.array([ 8.94427191, -8.94427191,  2.23606798])
f = poly1d(cof)
g = lambda x: f(x)**2
result,error=quad(g,0,1)
print result
X = np.linspace(0, 1, 100)
y = f(X)
import matplotlib.pyplot as plt
plt.plot( X,y,color="b",label="Target")
### 这是由随机样本生成程序的生成5个数据点，噪音强度为theta
theta=.1
dX = np.array([0.24577734,0.64312906,0.79399475,0.64484208,0.15637171])
#dX = uniform(size=5)
dy = np.array([ 0.55952277,  0.16654037,  0.77060361,  0.15839885,  0.84731844])
#dy = f(dX) + theta*normal(size=5)
plt.scatter(dX, dy, color="black", label="Data")
### X变换到Z空间Z={x**0,x**1,x**2,x**3,x**4}
from sklearn.preprocessing import PolynomialFeatures
dX = dX.reshape(5,1)
### 这个决定了假设集多项式的阶数，如果使用三次或者二次请相应的更改
poly = PolynomialFeatures(4)
dZ = poly.fit_transform(dX)
### 线性拟合
from sklearn import linear_model
###这个是简单的线性拟合
#clf = linear_model.LinearRegression(fit_intercept=False)
###这个是有正则器的线性拟合，读者可根据需要自行注解
clf = linear_model.Ridge(alpha = .001,fit_intercept=False)
clf.fit(dZ,dy)
print sum(clf.coef_**2)
plt.plot(X,clf.predict(poly.fit_transform(X.reshape(100,1))),color="r", label="Fit")

plt.xlim([0,1.])
plt.ylim([0,1.])
plt.legend(loc="best")
plt.xlabel("X")
plt.ylabel("y")
plt.show()

bigwigwind

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之正则化

加州理工学院的教授Yaser S. Abu-Mostafa和斯坦福大学的教授Andrew Ng都说，会不会使用正则化（Regularization）和验证（Valid）来克服过拟合（Overfit）是机器学习业余爱好者和专业人员的分水岭。为了方便大家自我判断，特撰系列文章，这是第一篇，简述正则化的来龙去脉。
复制链接

扫一扫