『sklearn学习』利用 Python 练习数据挖掘

最新推荐文章于 2024-07-05 01:02:41 发布

onlyfansnft.art

最新推荐文章于 2024-07-05 01:02:41 发布

阅读量4.6k

点赞数

分类专栏： sklearn 文章标签：数据挖掘 sklearn 大数据机器学习 Python

本文链接：https://blog.csdn.net/sbtgmz/article/details/53577141

版权

本文探讨了如何运用Python的sklearn库进行数据挖掘实践，针对初学者，纠正了相关教程中的错误。

摘要由CSDN通过智能技术生成

本文主要参考于利用 Python 练习数据挖掘，但修改了原文中的某些错误

### ------------------------------------------------------------------- ###
#     利用 Python 练习数据挖掘 URL：http://python.jobbole.com/83563/

# 数据导入和可视化
import urllib2
url = "http://aima.cs.berkeley.edu/data/iris.csv"
u = urllib2.urlopen(url)
localFiel = open("iris.csv", "w")
localFiel.write(u.read())
localFiel.close()

"""
数据来源： 伯克利大学
数据包含鸢尾花（iris）数据集，包含了三种鸢尾花（山鸢尾、维吉尼亚鸢尾和变色鸢尾）的各 50 个数据样本的多元数据集
每个样本有四个特征，即花萼（sepal）和花瓣（petal）的长度和宽度，以厘米为单位
数据集有 5 列，前四列包含着特征值，最后一列代表着样本类型
"""

# csv 文件很容易被 numpy 库的 genfromtxt 方法解析
from numpy import genfromtxt,zeros
# 读取前 4 列
data = genfromtxt("iris.csv", delimiter=",", usecols=(0, 1, 2, 3))
# 读取第 5 列
target = genfromtxt("iris.csv", delimiter=",", usecols=(4), dtype=str)

print "data: ", data
print "target: ", target
print "data.shape: ", data.shape
print "target.shape: ", target.shape

# 查看有多少种样本类型以及它们的名字
print set(target)

# 使用 pylab 库（matplotlib的接口）的 plotting 方法可以建一个二维散点图让我们在两个维度上分析数据集的两个特征值
from pylab import plot, show, close
# 蓝色点代表山鸢尾、红色点代表变色鸢尾、绿色点代表维吉尼亚鸢尾
# 第一和第三维