【笔记】根据公交卡出行记录识别小偷

案例来源:@Bowen Du
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)

1. 目标:根据公交卡出行记录识别小偷

2. 数据:
1)automated fare collection (AFC) systems的数据集(即北京智能公交一卡通数据),包括地铁与公交刷卡记录,在2014年4-6月共有600w用户的16亿条记录
2)根据新浪微博搜索,匹配到一些小偷的公交卡id
3)各个站点附近的POI数据,将其划入home、word、education等类别


3. 特征提取
1)出行时间
2)出行频率
3)短途出行占比(<3站的出行次数占所有出行次数的比例):因为小偷会经常换路线避免被乘客抓到
4)出行模式:大部分出行都是有模式的,如早高峰是 住宅区→中转站→工作区,而小偷的出行会缺乏这种模式
5)高频访问地图:一些地区容易偷窃,而且小偷也喜欢在自己熟悉的区域下手
6)与常规出行的背离程度:给定出发点和目的,大部分人的路线差别不大,一般是距离最短或者时间最短,而小偷则不符合这个模式
7)历史行为:七日历史行为的中位数、平均数等


4. 识别小偷:因为正例负例规模差距大,一些监督学习算法会有苦难;使用无监督学习方法,容易产生大量误报
1)无监督学习:采用无监督学习做异常检测,如果是正常样本,则过滤掉,下一步骤中只对可能的异常样本做检测。这里采用正常的用户行为做one-class SVM,实现无监督的异常检测
2)有监督学习:缩小了样本后,征服例比例规模差距缩小,因此可以做有监督学习。这里采用SVM做有监督学习

5. 效果



  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值