![2ba67c64e67e0d65b5bc2484d3cd5c28.png](https://i-blog.csdnimg.cn/blog_migrate/507ca022743f9fcd109c8239e9062b10.jpeg)
古语有云:物以类聚,人以群分。
KMeans
是无监督机器学习中的聚类算法中最简单的一种——基于特征对样本进行归为不同的类,很好地阐述了‘物以类聚’这句话的精髓。
机器学习又叫统计学习。既然都统计了,所以当然包括了计量经济学。所以一般来说,机器学习的算法类型远多于计量经济学。比如线性回归,这个算是机器学习算法中比较基础的部分。当然,计量经济学在回归分析、因果推断方面的造诣,也是普通机器学算法所不能比的。两者有很多交叉的地方,也各有所长。
本文目录
一、KMeans聚类分析算法原理
二、KMeans Stata命令介绍
三、Stata中的应用案例一:建模命令简单展示
四、Stata中的应用案例二:建模+分析
五、小结+Stata其它机器学习命令介绍
一、KMeans聚类分析算法原理
关于K均值聚类算法的原理,本人也已经在另外一篇文章中进行详细说明(并使用Python进行建模),在此不再赘述。具体可以参考:
https://zhuanlan.zhihu.com/p/338057896zhuanlan.zhihu.com二、KMeans Stata命令介绍
Stata中KMeans算法建模的完整命令是cluster kmeans
,所以kmeans
算是cluster
的一个核心子命令;cluster
的另外一个核心子命令是kmedians
。
cluster means的完整语法: cluster kmeans [varlist] [if] [in] , k(#) [ options ]
参数说明:
Main 必填选项
# * k(#): perform cluster analysis resulting in # groups - 设定分类的簇(组)的个数。
# measure(measure): similarity or dissimilarity measure; default is L2 (Euclidean) - 距离的衡量方法,默认是L2欧式距离。
# name(clname): name of resulting cluster analysis - 聚类分析结果列的名称。 Options 可选选项
# start(start_option): obtain k initial group centers by using start_option - 用来获取初始的k个簇。默认是krandom,即随机抽取k个样本。
# keepcenters: append the k final group means or medians to the data - 把最后k个分组的均值或者中位数数据append到数据集。 Advanced 高级可选选项
# generate(groupvar): name of grouping variable - 分组变量的名称。
# iterate(#): maximum number of iterations; default is iterate(10000) - 最大迭代次数,默认是10000次。
三、Stata中的应用案例一:建模命令展示
本案例来自cluster kmeans
的帮助文件。本案例的数据简单,直接展示了cluster kmeans的建模过程。更深入建模分析&#