一. 相关背景与方法
1. 数据来源
数据来自《Python数据分析与挖掘实战》书第14章, 该章意在使用运营商通过手机基站搜集的用户历史定位数据,采用数据挖掘技术对基站进行分群并对不同的商圈分群进行特征分析,以选取合适的商圈进行促销.
2. 层次聚类
层次聚类试图在不同层次对数据集进行划分, 从而形成树形的聚类结构. 数据集的划分可采用“自底向上”的聚合策略, 也可采用“自顶向下”的分拆策略.
其中, 自底向上的策略先将数据集中的每个样本看作一个初始聚类簇, 然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并, 该过程不断重复, 直至达到预设的聚类簇个数; 自顶向下的策略, 先将所有对象置于同一个簇中, 然后逐渐细分为越来越小的簇, 直到每个对象自成一簇, 或者达到了某个终止条件. 常用的为自底向上策略.
(转自 https://blog.csdn.net/sinat_33519513/article/details/79078486 )
3. 离差标准化
又做0~1标准化, 它是对原始数据进行线性变换, 使结果落到 [0,1] 区间.
公式:
二. 数据分析
1. 读取数据与规范化
原始数据为处理过后的基站数据, 包含基站编号与其对应的工作日上班时间人均停留时间, 凌晨人均停留时间, 周末人均停留时间, 周末人均停留时间, 日人均流量, 数据各列均无缺失值.
由于各属性之间的差异较大, 为消除数量级数据带来的影响, 在进行聚类前,