-
算法是核心,数据与计算是基础
-
入门
- 实战类书籍
- 机器学习(西瓜书)
- 统计学习方法(李航)
- 深度学习(花树)
-
学习阶段可用数据集:
1)sklearn
2)kaggle
3)UCI -
Scikit-learn工具介绍
包含:分类、回归、聚类、降维、模型选择、特征工程
- sklearn数据集:
- load_*获取小规模数据集
sklearn.datasets.load_iris()
- fetch_*获取大规模数据集
sklearn.datasets.fetch_20newgroups(data_home=None,subset='train')
数据集的返回值: datasets.base.Bunch(继承自字典)
dict[“key”]=values
bunch.key=values
数据集的划分API:
1、 训练数据集:用于训练,构建模型
2、 测试数据集:在模型检验时使用,用于评估模型是否有效
sklearn.model_selection.train_test_split(arrays,*options)