K-means实例:交通数据挖掘

1.实验目的

(1)加深对无监督学习的理解和认识

(2)掌握动态聚类方法K-means算法的设计方法

2.实验原理

(1)无监督学习的理论基础

(2)动态聚类分析的思想和理论依据

(3)聚类算法的评价指标

3.k-means算法思想

(1)首先随机选取样本中的K个点作为聚类中心;

(2)分别算出样本中其他样本距离这K个聚类中心的距离,并把这些样本分别作为自己最近的那个聚类中心的类别;

(3)对上述分类完的样本再进行每个类别求平均,求解出新的聚类中心;

(4)与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化,转过程1,不变则进行下一步;

(5)当质心不发生变化时,停止并输出聚类结果。

4.实验分析

本文选取每5min的流量、速度、道路占有率作为特征变量进行二维绘图分析。根据图1速度分布图可将速度分布划分为三个高峰时间段,在这三个时间段内车速相对较快,推断出在该时间内道路状况良好,道路车辆占有率较低,车辆运行速度大多分布在45-60km/h直接。根据图2交通量分布图发现,交通量呈现出三个高峰时间段,在这三个时间段内道路交通量相对偏大其道路状况相对拥挤。从图3车辆占有率分布图发现车辆占有率存在三个高峰时间段,且这三个高峰时间段在时间维度上与交通量的高峰时间段相对吻合,因此车辆占有率与交通量存在一定相关关系。图4为速度-交通量-占有率对应图,对图4进行分析得出如下结论:

(1)速度与交通量的分别在时间维度上呈现出负相关,即速度越大交通量分布越少;

(2)交通量与占有率在时间维度上呈现出正相关,交通量越大其占有率越高;

(3)速度与占有率在时间维度上呈现出负相关,速度越大道路占有率越低。

 图1速度分布图  

                         图2流量分布图

图3占有率分布图

       

      图4速度-交通量-占有率对应图

使用欧氏距离计算方法对样本数据进行K-means聚类分折,并将簇的个数设置为3,结果见图5与图6。根据图4显示可将道路状況分为三种情况分别为畅通,平稳和拥堵状态。根据聚类所得图像可以判断道路处于拥挤状态的时长要远大于畅通时长,而交通状况适中的情況较之交通拥堵的时长要短。根据图6聚类分析结果不难发现,速度、交通量、占有率三者并不能在时间维度上进行比较分析,并且对某个时间段内道路的交通运行状况情况无法进行准确判断。

 图5样本数据散点图

 图6样本数据聚类图

通过对样本数据进行K-means聚类分析得出:

(1)单个指标不能很好的反应出道路交通运行状况;

(2)交通量和占有率与车速分布成反比,并且该路段上处于高峰时间断的时间相对较长,因此可以推断该路段长时间处于交通拥挤状态;

(3)通过对比单指标和多指标的交通状态能够较好的体现出道路交通运行状况。

5.总结分析

K-means仅是手段,运用于不同场景时关键是挖掘该场景数据间的物理意义,然后从物理意义上分析聚类的结果。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

电气秃头大叔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值