Uber sql

  1. 给了trips,driver表格,1.要求得到每个大陆trip最多的城市,2.每天每个司机过去50天的平均trip,第二问我写了个self join, 被追问了更好的方法,就说可能可以window function avg函数具体没有用过,然后面试官就说可以用preceding放在partition by里面
  2. id/date/status(canceled, complete..) 找到每个id每个date截至的cancellation rate. 即找到这个date之前所有的cancellation #/这个date之前的total ride

 

Coding:

  1. value = { 1,2,3,4,5} weight = {1, 0.5, 3, 33, 17}. check 1point3acres for more.

怎么样sample value, 使 sample 4 的可能性使3的 11 倍。比如你有三个元素1,2,3,比重分别是500,800,1000,那么你TreeMap里面存的应该就是{1,500},{2,1300},{3,2300},每次随机一个0-2299的数,落在0-499的返回1,落在500-1299的返回2,落在1300-2299的返回3.
就是说sample weight决定了value被sample到的probability。要写个function。

‘在weight里面,4的weight是33, 3的weight是3, 不是已经11倍了吗?谁能解惑一下?’
意思是要你sample (value), 使得4 被抽到的概率是3被抽到的概率的11倍。

‘所以只要自己决定double weight 就完了?’. From 1point 3acres bbs
weight里面的值都是随便写的,要自己处理一下,这样保证不管weight的具体值是多少,相对的值是weight list里的

  1. 给一个list [2,2,3,4,5,5,5,7] 自选数据结构,输出每个元素以及repeat 次数。
  2. 给一个 log file,log file 里面每一行可能长这样

    akdsjflsj 127.0.0.1 asf alskdj alksfj;elifj
    kafsljlkjf; aklejf l;kaejlfkejflake 987.654.458.1
    flkasdjfl;a fklasdj flkaj l;fkdjas ;lkfj 123.123.123.123

    问所有 IP 出现的频率,依照多到少排序

转载于:https://www.cnblogs.com/ffeng0312/p/10212209.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值