Q1. 大量的streaming message,每个message有两个fields,第一个是company name,第二
个是这个message产生的时间(如12:01 02/18/2015),现在需要做到查询像前1分钟内
,前15 minutes内,1小时内,1天内,或者一个月内产生的messages数量在Top k 的
company. 由于message数量可能非常大,如何设计一个数据结构使得处理数据还有查询
top k的效率尽可能高,而且使用的store memory也尽量小?不属于distributed
个是这个message产生的时间(如12:01 02/18/2015),现在需要做到查询像前1分钟内
,前15 minutes内,1小时内,1天内,或者一个月内产生的messages数量在Top k 的
company. 由于message数量可能非常大,如何设计一个数据结构使得处理数据还有查询
top k的效率尽可能高,而且使用的store memory也尽量小?不属于distributed
computing的范畴,只考虑一天机器就行。多谢!
Q2. many students, many courses, both dynamically growing.
design a data structure so that you can easily find out:
all the students who are taking a certain course, and
all the courses a certain student takes.