1.线性回归
多数类似最小二乘法。多维数据也可回归。
2.非线性回归
线性回归PLUS。多项式回归。
回归方式:
定义系数,用系数矩阵及X表示误差。对误差求偏导。更新参数,梯度下降,得到最优解
1)参数更新的方法
2)梯度下降
随机梯度下降
小批量梯度下降
大批量梯度下降
3.模型评价方法
1)混淆矩阵
-
TP(True Positive):将正类预测为正类数,真实为0,预测也为0
-
FN(False Negative):将正类预测为负类数,真实为0,预测为1
-
FP(False Positive):将负类预测为正类数, 真实为1,预测为0
-
TN(True Negative):将负类预测为负类数,真实为1,预测也为1
-
精确率_类别1=a/(a+d+g)
-
召回率_类别1=a/(a+b+c)
2)交叉验证
4.逻辑回归
二分类方法
###
5.聚类算法
无监督学习算法。用于数据的聚合聚类。
1)k-means
1.计算已知类别数据集中的点与当前点的距离
2.按照距离依次排序
3.选取与当前点距离最小的K个点
4.确定前K个点所在类别的出现概率
5.返回前K个点出现频率最高的类别作为当前点预测分类。
2)DBSCAN算法
定义区域半径及簇中最小数的算法
3)Inertia指标
目标距质心的距离。越小越好。但是K越多,必然越小
4)轮廓系数
内聚度可以理解为反映一个样本点与类内元素的紧密程度。 分离度可以理解为反映一个样本点与类外元素的紧密程度。