继续学习这本书,这一章主要是主要是如何加载scikit-learn库中的自带的一些数据集,以及如何创建仿真数据集,其他的几个部分是加载CSV文件,Excel文件,加载json文件,查询SQL数据库,这几个部分的我也不会用到的,所以后面就暂时不写了。
#这一章主要是学习如何加载数据的,尽管在Python生态体系中有很多加载数据的方法,但本书会着重使用pandas库的
#一些方法来加载外部数据,并使用scikit-learn(Python中的一个开源的机器学习库)来生成仿生数据
#2.1加载样本数据集
#问题描述:加载已有的样本数据集
#加载scikit-learn的shujuj
from sklearn import datasets
#加载手写数字数据集
digits = datasets.load_digits()
#创建特征矩阵
features = digits.data
#创建目标向量
target = digits.target
#查看第一个样本数据
features[0] #不会显示出来
print(features[0]) #显示出来
#结果
# [ 0. 0. 5. 13. 9. 1. 0. 0. 0. 0. 13. 15. 10. 15. 5. 0. 0. 3.
# 15. 2. 0. 11. 8. 0. 0. 4. 12. 0. 0. 8. 8. 0. 0. 5. 8. 0.
# 0. 9. 8. 0. 0. 4. 11. 0. 1. 12. 7. 0. 0. 2. 14. 5. 10. 12.
# 0. 0. 0. 0. 6. 13. 10. 0. 0. 0.]
#讨论
# 在研究机器学习算法或方法时,大部分人不愿意把时间花在加载、转换、清洗从现实生活中得到的数据集上
# ,幸运的是,scikit-learn预置了一些很容易加载的常见数据集,