第一步,先读取数据,并对数据进行清洗和展示
## our first simple ML sample
import scipy as sp
import matplotlib.pyplot as plt
# read data
data = sp.genfromtxt("data/web_traffic.tsv",delimiter="\t")
print(data[:10]);
print(data.shape)
# clean data
x=data[:,0]
y=data[:,1]
print(sp.sum(sp.isnan(y)))
x=x[~sp.isnan(y)]
y=y[~sp.isnan(y)]
#draw pic
plt.scatter(x,y)
plt.title("Web traffic over the last month");
plt.xlabel("Time");
plt.ylabel("Hits/hour");
plt.xticks([w*7*24 for w in range(10)],['week %i'%w for w in range(10)])
plt.autoscale(tight=True)
plt.grid()
plt.show()
x=x[~sp.isnan(y)]
y=y[~sp.isnan(y)]这两句话将y中值为Nan的数据点去除
展示出数据图为
使用一次函数进行模拟
#定义误差函数
def error(f,x,y):
return sp.sum((f(x)-y)**2)
#使用一次线性函数进行模拟
fp1,residuals,rank,sv,round = sp.polyfit(x,y,1,full=True)
f1 = sp.poly1d(fp1)
print(error(f1,x,y))
fx = sp.linspace(0,x[-1],1000)
plt.plot(fx,f1(fx),linewidth=4)
plt.legend(["d=%i" % f1.order],loc="upper left")
plt.show()
sp.polyfit(x,y,1,full=True) 使用一次函数进行模拟,sp.poly1d(fp1) 则得到一次函数,最后用plot展示出曲线
拟合的效果不怎么样,使用二次函数试试
f2p=sp.polyfit(x,y,2)
f2=sp.poly1d(f2p)
print(error(f2,x,y))
plt.plot(fx,f2(fx),linewidth=4)
plt.legend(["d=%i" % f2.order],loc="upper left")
plt.show()
效果还可以
使用多条直线来拟合,比如
inflection = 3.5*7*24 # frac point
xa = x[:inflection] #
ya = y[:inflection]
xb = x[inflection:] #
yb = y[inflection:]
fx_a = sp.linspace(0,x[inflection],1000)
fx_b = sp.linspace(x[inflection],x[-1],1000)
fa = sp.poly1d(sp.polyfit(xa,ya,1))
fb = sp.poly1d(sp.polyfit(xb,yb,1))
plt.plot(fx_a,fa(fx_a),linewidth=4)
plt.plot(fx_b,fb(fx_b),linewidth=4)
plt.show()