第一个 scikit-learn例子
.....................................................................................................................................................
import sys
import scipy as sp
#到目标地址读取数据 web_traffic.tsv 包含我们需要的数据
#Python是一个高度优化的解释性语言,在处理数值繁重的算法方面要比C等语言慢很多,
#那为什么依然有很多科学家和公司在计算密集的领域将赌注下在Python上呢?
#因为Python可以很容易地将数值计算任务分配给C或Fortran这些底层扩展。其中NumPy和SciPy就是其中代表。
#前者表示路径名,要注意在自己电脑上设置成相应的路径名,然后第二个参数是分隔符,由于原文件中使用的制表符隔开数据的,所以这里是\t
data=sp.genfromtxt("C:\Users\Administrator\Desktop\machine_learning\web_traffic.tsv",delimiter="\t")
#打印10行数据出来
print(data[:10])
#data[:,a] 把a列的数据提取出来
x=data[:,0]
y=data[:,1]
#对不是有效的数据进行计算。
sp.sum(sp.isnan(y))
#x[sp.isnan(y)] 表示取无效的数据 ~sp.isnan(y) 表示相反,取有效的数据。
x=x[~sp.isnan(y)]
y=y[~sp.isnan(y)]
#可视化工具matplotlib
import matplotlib.pyplot as plt
plt.scatter(x,y)
plt.title("Web traffic over the last month")
plt.xlabel("Time")
plt.ylabel("Hits/hour")
plt.xticks([w*7*24 for w in range(10)],
['week %i'%w for w in range(10)])
plt.autoscale(tight=True)
plt.grid()
fp1,residuals,rank,sv,rcond=sp.polyfit(x,y,1,full=True)
f1=sp.poly1d(fp1)
fx=sp.linspace(0,x[-1],1000)
plt.plot(fx,f1(fx),linewidth=4)
plt.legend(["d=%i" %f1.order],loc="upper left")
plt.show()
input()
.................................................................................................................................................
1.import sys
import scipy as sp
2.import matplotlib.pyplot as plt
plt.scatter(x,y)
先查scikit-learn安装在哪个python版本里面,查找之后就进入python根目录下
如 Python27\Lib\site-packages\matplotlib 目录下 这样就找到了那个pyplot文件
scatter(x,y) 就是文件里面的一个函数
3.SciPy是用子模块的形式来组织的,这些子模块涵括了不同科学计算领域的内容。下面这个表对他们进行了总结
>>>from scipy import sparse