2. 数据集
2.1可用数据集
公司内部 百度
数据接口 花钱
数据集
学习阶段可以用的数据集:
1) sklearn: sklearn网址
2) kaggle :kaggle网址
3) UCI : UCI网址
2.1.2 Scikit-learn工具介绍
2.1.3 Scikit-learn安装
2.1.3 Scikit-learn包含的内容
2.1.4 sklearn数据集
sklearn.datasets
load_* 获取小规模数据集
feetch_* 获取大规模数据集
2 sklearn小数据集
sklearn.datasets.load_iris()
3 sklearn大数据集
sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')
subset:'train'或者'test','all',可选,选择要加载的数据集。
训练集的‘训练’,测试集的“测试”,两者的“全部”
4 数据集的返回值
datasets.base.Bunch(继承自字典)
dict["key"] = values
bunch.key = values
思考:拿到的数据是否全部都用来训练一个模型?
测试iris(鸢尾花)数据集代码:
from sklearn.datasets import load_iris
def datasets_demo():
"""
sklearn数据集的使用
:return:
"""
# 获取数据集
iris = load_iris()
# print("鸢尾花数据集:\n", iris)
# print("查看数据集描述:\n", iris["DESCR"])
# print("查看特征值的名字:\n", iris.feature_names)
print("查看特征值:\n", iris.data,iris.data.shape)
return None
if __name__ == '__main__':
# 代码1:sklearn数据集的使用
datasets_demo()
2.1.5 数据集的划分
训练数据:用于训练、构建模型
测试数据:在模型检验时使用,用于评估模型是否有效 (测试集:20%~30%)
数据集划分api:
数据集划分代码测试:
from sklearn.model_selection import train_test_split
# 数据集划分
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2,
random_state=22) # 默认的test_size=0.25
# print("训练集的特征值:\n", x_train, x_train.shape)
# print("测试集的特征值:\n", x_test, x_test.shape)
print("训练集的目标值:\n", y_train, y_train.shape)
# print("测试集的目标值:\n", y_test, y_test.shape)