目录
多元正态分布
鉴于自己数理基础弱,这部分不做整理了,放一些看了有收获的相关文章,以便参考。
《多元正态分布》:https://blog.csdn.net/omade/article/details/28232047
提出了多维随机变量;多元中,均值用均值向量代替,方差用协方差矩阵代替。给出了多元正态分布表达式,推导了二维。
聚类分析
1. 基本思想
通过相似程度(距离远近、相关关系),选取度量样本或指标相似程度的统计量,对对象分类,使同类中对象的相似性>与其他类的对象的相似性。目的是,使类内对象同质性最大,使类间对象异质性最大。
基本思路是,选择研究的变量(指标),如有必要则做数据标准化,求相似性,选择聚类方法和类数,对聚类结果解释并评价(评价方法:[1]R^2、伪F值; [2]每次分类的结果做方差分析,研究各类的均值是否有显著差异;多元方差分析/多元均值检验; [3]反复聚类,比较结果,分析可靠性、稳定性。)
注:聚类是不需要提前确定各类标准的,它是根据对象的相似性而分出的类。其实在生活中很常见,比如我们会比较他人和自己的处境相似程度以决定如何行动最有效,远古人类没有经验却能区分动植物大致种类,未受艺术教育的观众也可以将抽象派和写实派的画作聚类。
相关链接(均属于拓展内容),按照知识复杂程度(个人划分的),由浅到深排列。
《聚类方法(Clustering)》:https://wenku.baidu.com/view/0307c12d4b35eefdc8d333db.html
讲座报告。聚类分析的目的是,寻找潜在的“自然”分组结构、感兴趣的关系。介绍了一些聚类算法及数据挖掘方面的聚类。
《聚类分析的思路和方法》:https://wenku.baidu.com/view/1b74ff5184868762caaed5e2.html
与《多元统计分析》(何晓群)的逻辑基本一致。指出了聚类过程是形成一个由小到大的分类系统;聚类的应用如识别用户群体,如根据顾客的购买频率、时间、年龄、性别、消费额等聚类,识别最有消费潜力的用户的特征并投放对应的广告。
《聚类分析》:https://wenku.baidu.com/view/564a70c064ce0508763231126edb6f1aff0071fb.html
部分内容与《实用多元统计分析》一致。
《聚类分析在用户分类中的应用》:https://blog.csdn.net/howardge/article/details/38538003
《arcgis 地图聚类工具》:https://blog.csdn.net/niusi1288/article/details/74356846
《聚类(clustering)与分类(Classification)的区别》: