《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第五章习题答案
参考书籍:《大数据:互联网大规模数据挖掘与分布式处理》(第二版)
原版英文书籍:Mining of Massive Datasets
注:答案为本人自己做的,并非标准答案,仅供参考。
如有错误,请私信我,我将及时修改。
《大数据:互联网大规模数据挖掘与分布式处理》(第二版)第五章习题答案
注:本书包含大量习题,较难的习题或习题中较难的部分都会用!标记,最难的习题用!!标记。
习题5.1.1
图5.7的转移矩阵为:
不采用“抽税”法,我们从一个所有分量均为1/3的初始向量开始迭代计算,每次迭代都左乘转移矩阵。最终得到的向量序列为:
习题5.1.2
假定β=0.8,向量v’的迭代公式为:
我们从一个所有分量均为1/3的初始向量开始迭代计算,最终得到的向量序列为:
!习题5.1.3
PageRank向量的计算公式为:
假设初始向量v为:v=[x,x,…,x,y]T。
得:
解得:
!!习题5.1.4
Web是由n个节点组成的最大团。
!习题5.1.5
当n=0时,M0v的第2、3和4个分量显然相等。
假设当n=i时,Miv的第2、3和4个分量相等。
当n=i+1时,Mi+1v=M*Miv,在M中,第2、3和4行完全一致,故Mi+1v的第2、3和4个分量的计算结果继续保持相等。
得证。
习题5.1.6
在图5.9中,最左边有自环的节点的PageRank为1,其余所有节点的PageRank为1/2。
习题5.1.7
在图5.10中,最左边有自环的节点的PageRank为1,第i(i>=2)层的节点的PageRank为1/(3*2i-2)。
习题5.2.1
用矩阵表示,存储空间大小为:n*n。
设矩阵有x个非零元素。
用整数对列出矩阵中的非零元素,存储空间大小为:2x⌈log2n⌉。
要使2x⌈log2n⌉<=n2,则x<=(n2)/(2*⌈log2n⌉)。
即当非零元素比例<=n/(2*⌈log2n⌉)时,稀疏的表示方法节省空间。
习题5.2.2
(a) 图5-4
源网页 | 出度 | 目标网页 |
---|---|---|
A | 3 | B, C, D |
B | 2 | A, D |
C | 1 | E |
D | 2 | B, C |
(b) 图5-7
源网页 | 出度 | 目标网页 |
---|---|---|
a | 3 | a, b, c |
b | 2 | a, c |
c | 2 | b, c |
习题5.2.3
将一个4节点的图5-3分割成4个2×2的方块(M11, M12, M21, M22)。
M11:
源网页 | 出度 | 目标网页 |
---|---|---|
A | 3 | B |
B | 2 | A |
M12:
源网页 | 出度 | 目标网页 |
---|---|---|
D | 2 | B |
M21:
源网页 | 出度 | 目标网页 |
---|---|---|
A | 3 | C, D |
B | 2 | D |
M22:
源网页 | 出度 | 目标网页 |
---|---|---|
D | 2 | C |
习题5.2.4
表示的空间大小为:k*(n/k+1)=n+k。
习题5.3.1
图5.15的转移矩阵为:
假设β=0.8。
(a) 仅包含A
则eS=[1,0,0,0]T,|S|=1。
PageRank向量的迭代公式为:
我们从初始向量eS/|S|开始迭代计算,最终得到的向量序列为:
(b) 包含A和C
则eS=[1,0,1,0]T,|S|=2。
PageRank向量的迭代公式为:
我们从初始向量eS/|S|开始迭代计算,最终得到的向量序列为:
习题 5.4.1
( a ) 每个支持网页只链向自己
此时,y=x+βm(1-β)/n。
( b ) 每个支持网页不链向任何网页
此时,y=x+βm(1-β)/n=x。
( c ) 每个支持网页同时链向自己和目标网页
此时,y=x+βm(βy/m+(1-β)/n)/2
解得:y=2x/(2-β2)+cm/n。
习题 5.4.2
节点 | PageRank |
---|---|
A | 3/9 |
B | 2/9 |
C | 2/9 |
D | 2/9 |
(a)
节点 | TrustRank |
---|---|
A | 0.2694 |
B | 0.3578 |
C | 0.1578 |
D | 0.2150 |
(b)
节点 | 垃圾质量 |
---|---|
A | 0.1918 |
B | -0.6101 |
C | 0.2899 |
D | 0.0325 |
!习题 5.4.3
链向垃圾农场的全部网页,如果可以的话,双向链更佳。
存在好处,能提高自己网页的PageRank。
习题5.5.1
图5-1的链接矩阵L为:
给出2个公式:
- a=LTh,然后归一化
- h=La,然后归一化
最开始h向量中的所有分量都是1。计算过程如下:
!习题5.5.2
图5-9的链接矩阵L为:
设迭代次数为x。
导航度向量h=[1, 1/2x, 1/2x, 1/2x, 0]
权威度向量a=[1, 1, 1/2x, 1/2x, 1/2x]