下面介绍预测浏览量的例子,构建第一个机器学习的例子,其中需要的数据我放在这里了:
http://pan.baidu.com/share/link?shareid=1399332518&uk=3510054274。我们的数据的格式是这样的:
总共有743条,用word的写字板打开我网盘里的文件:web_traffic.tsv。这里数据的第一列表示时间(小时),第二列表示在这个小时内网站点击量(比如说第一行1 2272,表示第1个小时的点击量为2272次)。而我们所要做的工作便是通过这些数据去预测未来的点击量,从而未我们的网站建设提供一些指导,比如说我们需要多少服务器来支撑这样的点击量,如果我们能够提前知道就可以节省很多钱,总比事先买很多服务器好哈。
首先,我们要做的是把这些数据读到我们的程序里去。方法是使用SciPy的genfromtxt(),首先打开开始菜单中的所有应用程序找到Python 2.7,选择第一个IDLE(Python GUI)或者打开cmd,然后再敲入python,也是可以的:
然后输入:
import scipy as sp
data=sp.genfromtxt(“web_traffic.tsv”,delimiter=”\t”)