加载数据
- 一般输入的数据是一个矩阵或CSV文件;
- 将数据加载到内存中;
- 可以是网络上的数据,比方说UCI机器学习数据仓库也可以是保存在本地的文件。
网络数据仓库
scikit-learn的实现使用了NumPy中的arrays,所以,我们要使用NumPy来载入csv文件。
以下是从UCI机器学习数据仓库中下载的数据。
import numpy as np
import urllib
# url with dataset
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
# download the file 下载文件
raw_data = urllib.request.urlopen(url)
# load the CSV file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=",")
# separate the data from the target attributes
X =