1. 导论
机器学习
- 利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测
数据通常由一组向量组成,这组向量中的每个向量都是一个样本
- xi来表示一个样本,i=1,2,3,…, n,共n个样本
- 每个样本xi = {xi1, xi2, …, xip, y} 共p+1个维度
- 前p个维度 – p个特征
- y – 因变量
根据数据是否有因变量,分为:
- 有监督学习
- 给定某些特征去估计因变量
- aka 因变量存在的时候,我们称这个机器学习任务为有监督学习
- 无监督学习
- 给定某些特征但不给定因变量,建模的目的是学习数据本身的结构的关系
根据因变量是否连续,有监督学习分为:
- 回归
- 因变量是连续型变量
- 分类
- 因变量是离散型变量
1.1 回归
使用sklearn内置数据集Boston房价数据集。
sklearn中所有内置数据集都封装在datasets对象内
返回的对象有:
- data:特征x的矩阵(ndarray)
- target:因变量的向量(ndarray)
- feature_names:特征名称(ndarray)
1.2 分类
iris dataset
1.3 无监督学习
生成月牙型非凸集
生成符合正态分布的聚类数据
本次组队学习内容:2021年3月组队学习-集成学习(上)