本文主要参考于 利用 Python 练习数据挖掘 ,但修改了原文中的某些错误
### ------------------------------------------------------------------- ###
# 利用 Python 练习数据挖掘 URL:http://python.jobbole.com/83563/
# 数据导入和可视化
import urllib2
url = "http://aima.cs.berkeley.edu/data/iris.csv"
u = urllib2.urlopen(url)
localFiel = open("iris.csv", "w")
localFiel.write(u.read())
localFiel.close()
"""
数据来源: 伯克利大学
数据包含鸢尾花(iris)数据集,包含了三种鸢尾花(山鸢尾、维吉尼亚鸢尾和变色鸢尾)的各 50 个数据样本的多元数据集
每个样本有四个特征,即花萼(sepal)和花瓣(petal)的长度和宽度,以厘米为单位
数据集有 5 列,前四列包含着特征值,最后一列代表着样本类型
"""
# csv 文件很容易被 numpy 库的 genfromtxt 方法解析
from numpy import genfromtxt,zeros
# 读取前 4 列
data = genfromtxt("iris.csv", delimiter=",", usecols=(0, 1, 2, 3))
# 读取第 5 列
target = genfromtxt("iris.csv", delimiter=",", usecols=(4), dtype=str)
print "data: ", data
print "target: ", target
print "data.shape: ", data.shape
print "target.shape: ", target.shape
# 查看有多少种样本类型以及它们的名字
print set(target)
# 使用 pylab 库(matplotlib的接口)的 plotting 方法可以建一个二维散点图让我们在两个维度上分析数据集的两个特征值
from pylab import plot, show, close
# 蓝色点代表山鸢尾、红色点代表变色鸢尾、绿色点代表维吉尼亚鸢尾
# 第一和第三维