[机器学习]Scikit-Learn学习笔记03——Scikit-Learn数据模型

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/BaiHuaXiu123/article/details/80349168

Scikit-Learn提供了比较全的数据集,主要分为以下几类

1. 自带的小数据集(packaged dataset)
2. 在线下载的数据集(Downloaded Dataset)
3. 生成的数据集(Generated Dataset)
4. svmlight/libsvm格式的数据集
5. 从买了data.org在线下载获取的数据集
1. 自带的小数据集(packaged dataset)

主要有以下几种:

1) 鸾尾花数据: load_iris()
2)波士顿房价数据集: load_boston()
3)乳腺癌数据集: load_breast_cancer()
4)手写字数据集: load_digits()
5)糖料病数据集: load_diabetes()
6)体能训练数据集: load_linnerud()

这些数据集有助于快速说明在 scikit 中实现的各种算法的行为。然而,它们数据规模往往太小,无法代表真实世界的机器学习任务。

例子代码
#导入模块
import numpy as np
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#导入数据集
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
# print(iris_X[:2, :])
# print(iris_y)
X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.2)
# print(y_train)
#训练模型
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
#预测
print(knn.predict(X_test))
print(y_test)

其它数据集同理

阅读更多

扫码向博主提问

刘玉刚-AI-技术研究院

博客专家

非学,无以致疑;非问,无以广识
  • 擅长领域:
  • 机器学习
  • 深度学习 
  • 自然语言处理
  • HTML5
去开通我的Chat快问
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页