Spark入门案例--出租车数据分析

通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。

数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz

数据格式以及意义:

111,30.655325,104.072573,173749
111,30.655346,104.072363,173828
111,30.655377,104.120252,124057
111,30.655439,104.088812,142016

列一:出租车ID

列二:经度

列三:纬度

列四:时间(例如:142016表示14点20分16秒)


步骤:

1.整理数据,分割成训练数据和测试数据,且使其符合KMeans模型训练的格式

2.使用训练好的模型对测试数据进行预测,然后对结果以(类别,小时时间 )进行count统计,结果为每个类别每个小时的总次数。


import org.apache.spark.ml.clustering.KMeans
import 
  • 2
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值