编号按照对应的内容,1-1代表第一大部分遇到的第一题,R代表Review,C代表运行的代码(Code)。
1-1
解:B
标记过多的数据为异常可以说明,我们的阈值太高了,导致正常数据也被划分到异常数据中了。
1-2
解:D
极大似然估计对的参数,用平均值求μ,用样本与平均值之差的平方和的平均值求σ方。
2-1
解:C
不,因为有倾斜的类(所以总是预测y=0的算法会有很高的精度)。
2-2
解:AC
判断是否需要异常检测可以看数据是否是偏斜类来决定,就是异常数据太少,同时又特征太多,不能完美学习到异常的原因。
A:你经营一家电力公司(向客户供电),并希望监视你的电力工厂,看看其中是否有任何一个人行为怪异,正确。
B:您运行一家电力公司,并希望预测明天的预期电力需求(这样您就可以计划增加适当数量的发电能力),回归问题,错误。
C:一种计算机视觉/安全应用程序,在该应用程序中,您可以检查视频图像,以确定公司停车场中是否有人正在以一种不寻常的方式行事,正确。
D:一种计算机视觉应用程序,在该应用程序中,您检查进入您的零售商店的人的图像,以确定该人是男性还是女性,分类问题,错误。
2-3
解:B
表现得很差,说明出现欠拟合现象,我们可以尝试找出更多的特征来区分正常和反常的例子。
3-1
解:C
由老师上课所讲内容可知,μ确定中心,∑确定形状和大小。
3-2
解:ACD
A:原模型对应于轴对称的特殊多元高斯模型,正确。
B:当训练集数据集很小的时候,不适合使用多元高斯模型,错误。
C:多元高斯模型可以自动寻找不同特征之间的相关性,正确。
D:原始模型比多元高斯模型具有更高的计算效率,因此可以更好地扩展到n(特征数)的很大值,正确。
4-1
解:C
注意顺序,(2,1)是第一个用户对第二个电影。
4-2
解:D
第三个用户更看重动作元素,且都是5分。
5-1
解:A
带入求解,3x=1.5,5x=2.5,解得x=0.5。
5-2
解:D
梯度下降的更新公式。
5-3
解:D
将参数随机初始化为小的值,是想要破坏平衡性,确保算法正确地学习到特征。
6-1
解:C
向量化表示。
6-2
解:B
不需要特征缩放的主要原因是因为已经有了明确的范围。
R
R1-1
解:AC
R1-2
解:A
R1-3
解:B
R1-4
解:CD
R1-5
解:A
R2-1
解:AC
R2-2
解:BD
A:适用于逻辑回归算法。
C:适用于线性回归算法。
R2-3
解:C
您可以将这三个数据集合并为一个,但是您应该首先将每个数据集分别标准化,减去平均值,然后除以(max-min),其中三个站点的最大值和最小值分别为(5-1)或(10-1)或(100-1)。
R2-4
解:BC
A:协同过滤算法不需要手动选择特征,错误。
D:协同过滤算法初始化参数不可以为0,错误。
R2-5
解:AB
注意需要使用点乘,对元素进行操作。