一、简答题
- 结合疫情分析说明大数据的全生命周期
- 举例说明关系型数据库的不足
二、设计题
- 设计mapreduce实现自然连接
- 新浪用redis存储用户信息,简述这样做的好处;○2新浪使用有序集合存储粉丝集合(数据规模可达亿),建立索引机制通过用户ID快速判断其是否在粉丝集合里
三、计算题
- TF-IDF的计算
- 加权的用户商品二分图,用随机算法推荐下一首音乐
音乐1 | 音乐2 | 音乐3 | 音乐4 | 音乐5 | 音乐6 | 音乐7 | |
---|---|---|---|---|---|---|---|
Alice | 5 | 4 | 1 | ||||
Bob | 5 | 5 | 4 | 4 | 2 | ||
John | |||||||
xx |
具体数据忘记了,大差不大。
建议选课时多听听学长学姐们的意见,莫使前人哀后人