1、分类算法::LR(logist Regression)、SVM、KNN、决策树、RandomForest、GBDT(也不知道是什么)
2、回归算法:non-Linear regression 、 SVM(支持向量回归)、随机森林
3、聚类:k-means、层次聚类(??不懂)、GMM(高斯混合模型)、谱聚类(??不懂)
聚类算法唯一用到的信息就是样本与样本之间的相似度;
评判标准:高类类间距离、低类类内距离;高类内相似度,低类间相似度。相似度与距离负相关。
图像之间距离的度量就是对每个像素操作,最后获得距离。其中K-means和GMM需要提前指定类别k
3.1 k-means算法:对于已有的未标记样本,同时给定聚类的个数。目标是把比较接近的样本归为一类、总共得到k个簇群。
k个中心点选取的方法:先随机选取k个样本中心点,然后计算每个样本到k个样本中心点的距离,然后比较待聚类样本到中心点的距离,将待聚类的样本归为距离较近的那一类;最后重新计算聚类中心;重复迭代。
k-means收敛状态:(1)聚类中心不再变化;(2)每个样本到对应聚类的中心距离之和不再有很大变化。
k-means缺点:对初始样本点的选取比较敏感,对异常点的免疫不好(如一个远离大多数点的孤立点)
k-means和k-means++的区别:k-means的初始样本点是随机选取的;k-means++的样本点是选取最远的k个点作为初始的样本点。