微软100题(82)百度面试题_url访问频度排序

第2组百度面试题
1.给出两个集合A和B,其中集合A={name},
集合B={age、sex、scholarship、address、...},
要求:
问题1、根据集合A中的name查询出集合B中对应的属性信息;
问题2、根据集合B中的属性信息(单个属性,如age<20等),查询出集合A中对应的name。
2.给出一个文件,里面包含两个字段{url、size},
即url为网址,size为对应网址访问的次数,
要求:
问题1、利用Linux Shell命令或自己设计算法,
查询出url字符串中包含“baidu”子字符串对应的size字段值;
问题2、根据问题1的查询结果,对其按照size由大到小的排列。
(说明:url数据量很大,100亿级以上)

1.问题1:  select age,sex,scholarship,address,... 
               from B,A  
               where B.name = A.name 
   问题2:select name
                from A,B
                where B.name = A.name and B.age<20

2.问题1: shell: gawk ‘ /baidu/ { print $2 } ’ FILE
   问题2: shell: gawk ‘ /baidu/ {print $2}’ FILE | sort -n -r

对于大数据,可以对每个url计算hash,划分成小文件,再对每个小文件进行处理
对于每个小文件,计算url的size,可以用hash_map, key是url,value是size
然后根据size排序,最后利用多路归并排序对整个url排序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值