K-mean聚类
思想:随机选取k(预设类别数)个样本点作为中心点,将其余样本按与中心点相似度进行聚类,再去各类的均值作为中心点进行聚类,重复迭代,直到样本所属类别不改变为止。
由于k-mean极易受异常值影响,k-中心聚类,将均值改为离各个点距离和最小的点作为中心点。。
系谱聚类,,每次迭代仅将距离最近的两个样本(或者簇)聚成一类,最终聚成k类。。
三大主流判别分析算法:
1、费希尔(Fisher)判别-线性判别(LDA)
2、贝叶斯(Bayes)判别-朴素贝叶斯分类(NB)
3、距离判别-K最近邻(KNN)
1.1 线性判别主要思想是投影,找到一个合适的投影轴使得投影之后类别间的离差很大,
2.1 NB求出待分样本出现条件下,各类出现概率,最大后验作为所属类别的概率,
3.1 根据待分样本与已知类别样本间的距离远近进行判别,
主要包及函数
MASS-lda()/qda()
klaR-Naive Bayes()
class-knn()
kknn-kknn()
## S3 method for