『sklearn学习』利用 Python 练习数据挖掘

本文探讨了如何运用Python的sklearn库进行数据挖掘实践,针对初学者,纠正了相关教程中的错误。
摘要由CSDN通过智能技术生成

本文主要参考于 利用 Python 练习数据挖掘 ,但修改了原文中的某些错误

### ------------------------------------------------------------------- ###
#     利用 Python 练习数据挖掘 URL:http://python.jobbole.com/83563/

# 数据导入和可视化
import urllib2
url = "http://aima.cs.berkeley.edu/data/iris.csv"
u = urllib2.urlopen(url)
localFiel = open("iris.csv", "w")
localFiel.write(u.read())
localFiel.close()

"""
数据来源: 伯克利大学
数据包含鸢尾花(iris)数据集,包含了三种鸢尾花(山鸢尾、维吉尼亚鸢尾和变色鸢尾)的各 50 个数据样本的多元数据集
每个样本有四个特征,即花萼(sepal)和花瓣(petal)的长度和宽度,以厘米为单位
数据集有 5 列,前四列包含着特征值,最后一列代表着样本类型
"""

# csv 文件很容易被 numpy 库的 genfromtxt 方法解析
from numpy import genfromtxt,zeros
# 读取前 4 列
data = genfromtxt("iris.csv", delimiter=",", usecols=(0, 1, 2, 3))
# 读取第 5 列
target = genfromtxt("iris.csv", delimiter=",", usecols=(4), dtype=str)

print "data: ", data
print "target: ", target
print "data.shape: ", data.shape
print "target.shape: ", target.shape

# 查看有多少种样本类型以及它们的名字
print set(target)

# 使用 pylab 库(matplotlib的接口)的 plotting 方法可以建一个二维散点图让我们在两个维度上分析数据集的两个特征值
from pylab import plot, show, close
# 蓝色点代表山鸢尾、红色点代表变色鸢尾、绿色点代表维吉尼亚鸢尾
# 第一和第三维
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值