一丶监督学习
概述:
通过已有的数据结果,分析训练出一个预测模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。 即: 根据训练集训练出模型, 再根据测试集对结果预测.
1.回归模型
1.1线性回归
概念: 一般用于求一个变量随着另一个变量的变化而变化的情况
多元线性回归:
现实生活中, 一个变量所受的影响往往不只是会受另一种的变化,而是会受到多种情况的影响,这就需要使用多元线性回归
求解的两种方式: 最小二乘法和梯度下降法
2.分类模型
2.1 k近邻
核心思路:
在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据, 则该测试数据对应的类别就是K个数据中出现次数最多的那个分类
a)计算测试数据与各个训练数据之间的距离;
b)按照距离的递增关系进行排序;
c)选取距离最小的K个点;
d)确定前K个点所在类别的出现频率;
e)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
2.2 逻辑斯蒂回归
为什么使用逻辑斯蒂回归?
答: 线性回归健壮性不够, 一旦出现"噪声"数据,就会出现错误;还有一些比较严谨的数据判断:是否为恶性肿瘤问题等
逻辑斯蒂回归图解示例:
二丶非监督学习
概述:
直接对数据进行建造模型。没有给定事先标记过的训练范例,所用的数据没有属性或标签这一概念。事先不知道输入数据对应的输出结果是什么。
1.聚类
1.1 k均值
核心思路: 由用户指定k个初始质心点,来当作聚类的类别,进行重复迭代.
1.先选取k个初始质心点
2. 求得各个数据到各个质心点的距离
3. 将本条数据, 离的最近的质心点,当作类别
4. 求出这个类别的所有点的均值,然后继续进行迭代