【spark】八 自己实现 RDD中 某列 累计百分比确定阈值

需求:统计出一天的用户中,登录1次的用户56422次,登录2次的49422,一直到登录N次的,用户为1个末尾,大多数用户都是正常用户,只会登录最多几十次,现在需要规定阈值设定就是有0.05%的坏人比例,根据该比例来划分登录异常次数的阈值。即按照登录次数升序,用户数量达到99.95%的列作为判定坏人的阈值

数据样例(含实现数据)

time login_cnt user_cnt user_cnt_add percenter
190315 1 56422 56422 56422/sum
190315 2 49422 105844 105844/sum
190315 3 36422 142266 142266/sum
190315 4 20000 162266 162266/sum
…… …… …… …… ……
190315 200 20 300020 300020/sum
…… …… …… …… ……
190315 400 2 301022 301022/sum
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值