[PPB] 使用层次聚类划分基站所在商圈类型

本文基于《Python数据分析与挖掘实战》中的案例,使用层次聚类方法对基站数据进行商圈类型的划分。首先介绍数据来源,接着阐述层次聚类和离差标准化的概念。在数据分析部分,对数据进行规范化处理后,绘制谱系聚类图确定k=3作为最佳聚类数目,最后通过sklearn的AgglomerativeClustering进行聚类,结果显示3个商圈类别分别对应商业区、住宅区和上班区域。
摘要由CSDN通过智能技术生成

 

一. 相关背景与方法

    1. 数据来源

        数据来自《Python数据分析与挖掘实战》书第14章, 该章意在使用运营商通过手机基站搜集的用户历史定位数据,采用数据挖掘技术对基站进行分群并对不同的商圈分群进行特征分析,以选取合适的商圈进行促销.

    2. 层次聚类

        层次聚类试图在不同层次对数据集进行划分, 从而形成树形的聚类结构. 数据集的划分可采用“自底向上”的聚合策略, 也可采用“自顶向下”的分拆策略.
        其中, 自底向上的策略先将数据集中的每个样本看作一个初始聚类簇, 然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并, 该过程不断重复, 直至达到预设的聚类簇个数; 自顶向下的策略, 先将所有对象置于同一个簇中, 然后逐渐细分为越来越小的簇, 直到每个对象自成一簇, 或者达到了某个终止条件. 常用的为自底向上策略. 

        (转自  https://blog.csdn.net/sinat_33519513/article/details/79078486 )

    3. 离差标准化

        又做0~1标准化, 它是对原始数据进行线性变换, 使结果落到 [0,1] 区间.

        公式:

二. 数据分析

    1. 读取数据与规范化

        原始数据为处理过后的基站数据, 包含基站编号与其对应的工作日上班时间人均停留时间, 凌晨人均停留时间, 周末人均停留时间, 周末人均停留时间, 日人均流量, 数据各列均无缺失值.

        由于各属性之间的差异较大, 为消除数量级数据带来的影响, 在进行聚类前,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值