《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第九章习题答案_大数据:互联网大规模数据挖掘与分布式处理习题-CSDN博客

本文链接：https://blog.csdn.net/ProgramNovice/article/details/128205943

《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第九章习题答案

《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第九章习题答案

参考书籍：《大数据：互联网大规模数据挖掘与分布式处理》（第二版）

原版英文书籍：Mining of Massive Datasets

注：答案为本人自己做的，并非标准答案，仅供参考。
如有错误，请私信我，我将及时修改。

《大数据：互联网大规模数据挖掘与分布式处理》（第二版）第九章习题答案

注：本书包含大量习题，较难的习题或习题中较难的部分都会用！标记，最难的习题用！！标记。

习题9.2.1

向量A，B，C：

向量	处理器速度	磁盘大小	内存大小
A	3.06	500α	6β
B	2.68	320α	4β
C	2.92	640α	6β

向量组合	夹角余弦
A-B	$\frac{8.2008+160000α^2+24β^2}{\sqrt{3.06^2+250000α^2+36β^2}*\sqrt{2.68^2+102400α^2+16β^2}}$
A-C	$\frac{8.9352+320000α^2+36β^2}{\sqrt{3.06^2+250000α^2+36β^2}*\sqrt{2.92^2+409600α^2+36β^2}}$
B-C	$\frac{7.8256+204800α^2+24β^2}{\sqrt{2.68^2+102400α^2+16β^2}*\sqrt{2.92^2+409600α^2+36β^2}}$

若α=β=1，则：

向量组合	夹角余弦	夹角
A-B	0.999997	0.1403°
A-C	0.999995	0.1812°
B-C	0.999988	0.2807°

若α=0.01，β=0.5，则：

向量组合	夹角余弦	夹角
A-B	0.990881	7.7436°
A-C	0.991555	7.4515°
B-C	0.969178	14.2623°

!(d)

第一分量的平均值=(3.06+2.68+2.92)/3=2.886667，放缩变换因子为1。

第二分量的平均值=(500+320+640)/3=486.6667，放缩变换因子α=2.886667*1/486.6667=0.0059。

第二分量的平均值=(6+4+6)/3=5.333333，放缩变换因子β=2.886667*1/5.333333=0.5413。

则：

向量组合	夹角余弦	夹角
A-B	0.9899	8.1704°
A-C	0.9916	7.4542°
B-C	0.9693	14.2265°

习题9.2.2

(a)

归一化前：

向量	处理器速度	磁盘大小	内存大小
A	3.06	500	6
B	2.68	320	4
C	2.92	640	6

归一化后：

向量	处理器速度	磁盘大小	内存大小
A	0.1733	13.3333	0.6667
B	-0.2067	-166.6667	-1.3333
C	0.0333	153.3333	0.6667

!!(b)

不会写，按放缩变换因子均为1来算：

向量组合	夹角余弦	夹角
A-B	0.9989	2.7158°
A-C	-0.9991	177.5023°
B-C	-0.999993	179.78°

习题9.2.3

(a)

计算机	归一化前	归一化后
A	4	0.3333
B	2	-1.6667
C	5	1.3333

(b)

评分为0.3333、-1.6667和1.3333的平均值0。

习题9.3.1

效用矩阵：

用户	a	b	c	d	e	f	g	h
A	4	5		5	1		3	2
B		3	4	3	1	2	1
C	2		1	3		4	5	3

组合	Jaccard距离
A-B	1/2
A-C	5/8
B-C	1/2

组合	余弦距离
A-B	0.6010
A-C	0.5311
B-C	0.5139

将评分3到5看成1，将评分1和评分2还有空白看成0。效用矩阵变为：

用户	a	b	c	d	f	g	h
A	1	1	0	1	0	1	0
B	0	1	1	1	0	0	0
C	0	0	0	1	1	1	1

组合	Jaccard距离
A-B	0
A-C	0
B-C	0

组合	余弦距离
A-B	0.5774
A-C	0.5
B-C	0.2887

效用矩阵变为：

用户	a	b	c	d	e	f	g	h
A	0.6667	1.6667		1.6667	-2.3333		-0.3333	-1.3333
B		0.6667	1.6667	0.6667	-1.3333	-0.3333	-1.3333
C	-1		-2	0		1	2	0

组合	余弦距离
A-B	0.5843
A-C	-0.1155
B-C	-0.7396

习题9.3.2

将评分3到5看成1，将评分1和评分2还有空白看成0。效用矩阵变为：

用户	a	b	c	d	f	g	h
A	1	1	0	1	0	1	0
B	0	1	1	1	0	0	0
C	0	0	0	1	1	1	1

用户	簇1（f、h）	簇2（a、e）	簇3（b、c）	簇4（d、g）
A	0	1/2	1/2	1
B	0	0	1	1/2
C	1	0	0	1

组合	余弦距离
A-B	0.7303
A-C	0.5774
B-C	0.3162

习题9.4.1

矩阵M：

$\begin{bmatrix} 5&2&4&4&3\\3&1&2&4&1\\2&&3&1&4\\2&5&4&3&5\\4&4&5&4& \end{bmatrix}$

(a) u₃₂

新的U、V矩阵如下所示：

$\begin{bmatrix} 1&1\\1&1\\1&z\\1&1\\1&1 \end{bmatrix} × \begin{bmatrix} 1&1&1&1&1\\1&1&1&1&1 \end{bmatrix}= \begin{bmatrix} 2&2&2&2&2\\2&2&2&2&2\\z+1&z+1&z+1&z+1&z+1\\2&2&2&2&2\\2&2&2&2&2 \end{bmatrix}$

注意到矩阵乘积的结果中只有第三行才有变化，于是，当将UV和M进行比较时，唯一的RMSE变化来自第三行。

第三行对平方和计算的贡献是：

$2-(z+1))^2+(3-(z+1))^2+(1-(z+1))^2+(4-(z+1))^2$

该表达式可以简化为：

$1-z)^2+(2-z)^2+z^2+(3-z)^2$

令其导数为0，于是有：

$- 2 (1 - z) - 2 (2 - z) + 2 z - 2 (3 - z) = 0$

对上式化简有：

$- 2 (6 - 4 z) = 0$

于是， $z = 1.5$ 。

(b) v₁₄

注：书上写的是v₄₁，我觉得不对，是打印错误，下面按v₁₄计算。

新的U、V矩阵如下所示：

$\begin{bmatrix} 1&1\\1&1\\1&1\\1&1\\1&1 \end{bmatrix} × \begin{bmatrix} 1&1&1&y&1\\1&1&1&1&1 \end{bmatrix}= \begin{bmatrix} 2&2&2&y+1&2\\2&2&2&y+1&2\\2&2&2&y+1&2\\2&2&2&y+1&2\\2&2&2&y+1&2 \end{bmatrix}$

注意到矩阵乘积的结果中只有第四列才有变化，于是，当将UV和M进行比较时，唯一的RMSE变化来自第四列。

第四列对平方和计算的贡献是：

$4-(y+1))^2+(4-(y+1))^2+(1-(y+1))^2+(3-(y+1))^2+(4-(y+1))^2$

该表达式可以简化为：

$3-y)^2+(3-y)^2+y^2+(2-y)^2+(3-y)^2$

令其导数为0，于是有：

$- 2 (3 - y) - 2 (3 - y) + 2 y - 2 (2 - y) - 2 (3 - y) = 0$

对上式化简有：

$- 2 (11 - 5 y) = 0$

于是， $y = 2.2$ 。

习题9.4.2

矩阵M：

$\begin{bmatrix} 5&2&4&4&3\\3&1&2&4&1\\2&&3&1&4\\2&5&4&3&5\\4&4&5&4& \end{bmatrix}$

对U、V的初始值都设为相同值x，新的U、V矩阵如下所示：

$\begin{bmatrix} x&x\\x&x\\x&x\\x&x\\x&x \end{bmatrix} × \begin{bmatrix} x&x&x&x&x\\x&x&x&x&x \end{bmatrix}= \begin{bmatrix} 2x^2&2x^2&2x^2&2x^2&2x^2\\2x^2&2x^2&2x^2&2x^2&2x^2\\2x^2&2x^2&2x^2&2x^2&2x^2\\2x^2&2x^2&2x^2&2x^2&2x^2\\2x^2&2x^2&2x^2&2x^2&2x^2 \end{bmatrix}$

$\begin{bmatrix} 5-2x^2&2-2x^2&4-2x^2&4-2x^2&3-2x^2 \\ 3-2x^2&1-2x^2&2-2x^2&4-2x^2&1-2x^2 \\2-2x^2&&3-2x^2&1-2x^2&4 -2x^2 \\2-2x^2&5-2x^2&4-2x^2&3-2x^2&5 -2x^2 \\4-2x^2&4-2x^2&5-2x^2&4-2x^2& \end{bmatrix}$

求M-NV的每一个元素的平方和，除以23再开方，得到RMSE。

当RMSE取得最小值时，x即为所求，为1.2769。

求解程序：

syms x 

F = sqrt((3*(1-2*x^2)^2+4*(2-2*x^2)^2+4*(3-2*x^2)^2+8*(4-2*x^2)^2+4*(5-2*x^2)^2)/23);

Feq = diff(F);

Feq=@(x)eval(Feq);

[x,fval,exitflag] = fzero(Feq,rand())

习题9.4.3

矩阵M：

$\begin{bmatrix} 5&2&4&4&3\\3&1&2&4&1\\2&&3&1&4\\2&5&4&3&5\\4&4&5&4& \end{bmatrix}$

重新考虑u₁₁的值，新的U、V矩阵如下所示：

$\begin{bmatrix} x&1\\1&1\\1.178&1\\1&1\\1&1 \end{bmatrix} × \begin{bmatrix} 1.617&1&1&1&1\\1&1&1&1&1 \end{bmatrix}= \begin{bmatrix} 1.617x+1 & x+1 & x+1 & x+1 & x+1 \\ 2.617 & 2 & 2& 2& 2 \\ 1.905 & 2.178 & 2.178 & 2.178 & 2.178 \\ 2.617 & 2 & 2& 2& 2 \\ 2.617 & 2 & 2& 2& 2 \end{bmatrix}$

注意到矩阵乘积的结果中只有第一行才有变化，于是，当将UV和M进行比较时，唯一的RMSE变化来自第一行。

第一行对平方和计算的贡献是：

$5-(1.617x+1))^2+(2-(x+1))^2+(4-(x+1))^2+(4-(x+1))^2+(3-(x+1))^2$

该表达式可以简化为：

$4-1.617x)^2+(1-x)^2+(3-x)^2+(3-x)^2+(2-x)^2$

令其导数为0，于是有：

$- 2 (4 - 1.617 x) - 2 (1 - x) - 2 (3 - x) - 2 (3 - x) - 2 (2 - x) = 0$

对上式化简有：

$- 2 (13 - 5.617 x) = 0$

于是， $x = 2.314$ 。

考虑u₅₂的值，新的U、V矩阵如下所示：

$\begin{bmatrix} 2.314&1\\1&1\\1.178&1\\1&1\\1&x \end{bmatrix} × \begin{bmatrix} 1.617&1&1&1&1\\1&1&1&1&1 \end{bmatrix}= \begin{bmatrix} 4.7417 & 3.314 & 3.314 & 3.314 & 3.314 \\ 2.617 & 2 & 2& 2& 2 \\ 1.905 & 2.178 & 2.178 & 2.178 & 2.178 \\ 2.617 & 2 & 2& 2& 2 \\ x+1.617 & x+1 & x+1 & x+1 & x+1 \end{bmatrix}$

注意到矩阵乘积的结果中只有第五行才有变化，于是，当将UV和M进行比较时，唯一的RMSE变化来自第五行。

第五行对平方和计算的贡献是：

$4-(x+1.617))^2+(4-(x+1))^2+(5-(x+1))^2+(4-(x+1))^2$

该表达式可以简化为：

$2.383-x)^2+(3-x)^2+(4-x)^2+(3-x)^2$

令其导数为0，于是有：

$- 2 (2.383 - x) - 2 (3 - x) - 2 (4 - x) - 2 (3 - x) = 0$

对上式化简有：

$- 2 (12.383 - 4 x) = 0$

于是， $x = 3.096$ 。

考虑v₂₂的值，新的U、V矩阵如下所示：

$\begin{bmatrix} 2.314&1\\1&1\\1.178&1\\1&1\\1&3.096 \end{bmatrix} × \begin{bmatrix} 1.617&1&1&1&1\\ 1&x&1&1&1 \end{bmatrix}= \begin{bmatrix} 4.742 & x+2.314 & 3.314 & 3.314 & 3.314 \\ 2.617 & x+1 & 2& 2& 2 \\ 1.905 & x+1.178 & 2.178 & 2.178 & 2.178 \\ 2.617 & x+1 & 2& 2& 2 \\ 4.713 & 3.096x+1 & 4.096 & 4.096 & 4.096 \end{bmatrix}$

注意到矩阵乘积的结果中只有第2列才有变化，于是，当将UV和M进行比较时，唯一的RMSE变化来自第2列。

第2列对平方和计算的贡献是：

$2-(x+2.314))^2+(1-(x+1))^2+(5-(x+1))^2+(4-(3.096x+1))^2$

该表达式可以简化为：

$0.314-x)^2+x^2+(4-x)^2+(3-3.096x)^2$

令其导数为0，于是有：

$- 2 (- 0.314 - x) + 2 x - 2 (4 - x) - 2 (3 - 3.096 x) = 0$

对上式化简有：

$- 2 (6.686 - 6.096 x) = 0$

于是， $x = 1.097$ 。

习题9.4.4

将9.4.4节的 $y$ 的公式中的 $i$ 全换成 $j$ 即可。

习题9.4.5

矩阵M：

$\begin{bmatrix} 5&2&4&4&3\\3&1&2&4&1\\2&&3&1&4\\2&5&4&3&5\\4&4&5&4 \end{bmatrix}$

归一化处理后的矩阵M：

$\begin{bmatrix} 1.47 & -1.1375 & 0.07 & -0.825 \\ 0.87 & -0.7375 & -0.53 & -1.425\\ -0.43 && 0.17 & 1.275\\ -1.73 & 1.6625 & -0.13 & 0.975\\ -0.18 & 0.2125 & 0.42 & \end{bmatrix}$

归一化处理后的矩阵M：

$\begin{bmatrix} 1.45 & -1.35 & 0.05 & 0.45 & -0.6\\ 0.85 & -0.95 & -0.55 & 1.85 & -1.2\\ -0.3875 && 0.2125 & -1.3875 & 1.5625\\ -1.75 & 1.45 & -0.15 & -0.75 & 1.2\\ -0.2&0&0.4&-0.2 \end{bmatrix}$