《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第五章习题答案_大数据互联网大规模数据挖掘与分布式处理课后答案第五章-CSDN博客

本文链接：https://blog.csdn.net/ProgramNovice/article/details/127169863

本文提供了《大数据：互联网大规模数据挖掘与分布式处理》第二版第五章的习题解答，涵盖PageRank计算、矩阵表示方法等内容，并对比了不同表示方法的空间效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第五章习题答案

《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第五章习题答案

参考书籍：《大数据：互联网大规模数据挖掘与分布式处理》（第二版）

原版英文书籍：Mining of Massive Datasets

注：答案为本人自己做的，并非标准答案，仅供参考。
如有错误，请私信我，我将及时修改。

《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第五章习题答案

注：本书包含大量习题，较难的习题或习题中较难的部分都会用！标记，最难的习题用！！标记。

习题5.1.1

图5.7的转移矩阵为：

在这里插入图片描述

不采用“抽税”法，我们从一个所有分量均为1/3的初始向量开始迭代计算，每次迭代都左乘转移矩阵。最终得到的向量序列为：

在这里插入图片描述

习题5.1.2

假定β=0.8，向量v’的迭代公式为：

在这里插入图片描述

我们从一个所有分量均为1/3的初始向量开始迭代计算，最终得到的向量序列为：

在这里插入图片描述

!习题5.1.3

PageRank向量的计算公式为：

在这里插入图片描述
假设初始向量v为：v=[x,x,…,x,y]^T。

得：

在这里插入图片描述
解得：

在这里插入图片描述

!!习题5.1.4

Web是由n个节点组成的最大团。

!习题5.1.5

当n=0时，M⁰v的第2、3和4个分量显然相等。

假设当n=i时，Mⁱv的第2、3和4个分量相等。
当n=i+1时，Mⁱ⁺¹v=M*Mⁱv，在M中，第2、3和4行完全一致，故Mⁱ⁺¹v的第2、3和4个分量的计算结果继续保持相等。

得证。

习题5.1.6

在图5.9中，最左边有自环的节点的PageRank为1，其余所有节点的PageRank为1/2。

习题5.1.7

在图5.10中，最左边有自环的节点的PageRank为1，第i(i>=2)层的节点的PageRank为1/(3*2^i-2)。

习题5.2.1

用矩阵表示，存储空间大小为：n*n。

设矩阵有x个非零元素。

用整数对列出矩阵中的非零元素，存储空间大小为：2x⌈log₂n⌉。

要使2x⌈log₂n⌉<=n²，则x<=(n²)/(2*⌈log₂n⌉)。

即当非零元素比例<=n/(2*⌈log₂n⌉)时，稀疏的表示方法节省空间。

习题5.2.2

(a) 图5-4

源网页	出度	目标网页
A	3	B, C, D
B	2	A, D
C	1	E
D	2	B, C

(b) 图5-7

源网页	出度	目标网页
a	3	a, b, c
b	2	a, c
c	2	b, c

习题5.2.3

将一个4节点的图5-3分割成4个2×2的方块(M₁₁, M₁₂, M₂₁, M₂₂)。

M₁₁：

源网页	出度	目标网页
A	3	B
B	2	A

M₁₂：

源网页	出度	目标网页
D	2	B

M₂₁：

源网页	出度	目标网页
A	3	C, D
B	2	D

M₂₂：

源网页	出度	目标网页
D	2	C

习题5.2.4

表示的空间大小为：k*(n/k+1)=n+k。

习题5.3.1

图5.15的转移矩阵为：

在这里插入图片描述
假设β=0.8。

(a) 仅包含A

则e_S=[1,0,0,0]^T，|S|=1。

PageRank向量的迭代公式为：
在这里插入图片描述
我们从初始向量e_S/|S|开始迭代计算，最终得到的向量序列为：

在这里插入图片描述

(b) 包含A和C

则e_S=[1,0,1,0]^T，|S|=2。

PageRank向量的迭代公式为：
在这里插入图片描述
我们从初始向量e_S/|S|开始迭代计算，最终得到的向量序列为：

在这里插入图片描述

习题 5.4.1

( a ) 每个支持网页只链向自己

此时，y=x+βm(1-β)/n。

( b ) 每个支持网页不链向任何网页

此时，y=x+βm(1-β)/n=x。

( c ) 每个支持网页同时链向自己和目标网页

此时，y=x+βm(βy/m+(1-β)/n)/2

解得：y=2x/(2-β²)+cm/n。

习题 5.4.2

节点	PageRank
A	3/9
B	2/9
C	2/9
D	2/9

(a)

节点	TrustRank
A	0.2694
B	0.3578
C	0.1578
D	0.2150

(b)

节点	垃圾质量
A	0.1918
B	-0.6101
C	0.2899
D	0.0325

!习题 5.4.3

链向垃圾农场的全部网页，如果可以的话，双向链更佳。

存在好处，能提高自己网页的PageRank。

习题5.5.1

图5-1的链接矩阵L为：

在这里插入图片描述

给出2个公式：

a=L^Th，然后归一化
h=La，然后归一化

最开始h向量中的所有分量都是1。计算过程如下：

在这里插入图片描述

!习题5.5.2

图5-9的链接矩阵L为：

在这里插入图片描述

设迭代次数为x。

导航度向量h=[1, 1/2^x, 1/2^x, 1/2^x, 0]

权威度向量a=[1, 1, 1/2^x, 1/2^x, 1/2^x]