数据科学导论:
一、6个网页PageRank计算。最后从低到高给出网页的PageRank值。
二、(1)推荐方法分为哪些类(2)给一个表格,记录了4个用户对7个商品的评分,给出针对每个用户的推荐商品列表的top1。
三、降维方法及应用场景
四、Entity Resolution是什么,举出一个例子。
五、给了四个句子。
Doc1:It was the best of times,.
Doc2:it was the worst of times.
Doc3:it was the age of wisdom.
Doc4:it was the age of foolishness.
(1)词袋是什么,给出向量表达(2)与Doc1最相似的是哪一句(3)设计和描述times和age的反向索引(4)给出单词-文档矩阵,观察主题偏好。
算法分析与设计:
一、一个连通无向图G,设计算法去掉最少的边使之成为非连通的。要求使用最大流算法F作为子过程。
二、英文题干。有权重的无向图G有一颗最小生成树T,e是G的一条边,e的权重变小为w'(e),设计一个算法去更新T,使更新后的T‘仍是一颗最小生成树。写出算法思想,伪代码,证明正确性。
三、Dijkstra算法的算法思想,伪代码,证明正确性,分析时间复杂度。
四、Johnson算法的算法思想,伪代码,证明正确性。
五、最大独立集问题和最小顶点覆盖问题的形式化表达,并证明它们是等价的。
六、使用动态规划思想,解决独立集问题。写出算法思想,尤其写出bellman方程。证明正确性。
(555算法是真的做不完题啊)