神经网络与深度学习-课后习题

最新推荐文章于 2022-11-27 19:01:38 发布

数学工具构造器

最新推荐文章于 2022-11-27 19:01:38 发布

阅读量2.6k

点赞数 3

文章标签：神经网络面试深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TQCAI666/article/details/113929891

版权

《神经网络与深度学习-邱锡鹏》习题解答

https://github.com/nndl/solutions

面试锦囊之LR

面试篇——线性回归怎么问？

面试篇——SVM怎么问

面试篇——决策树/集成学习（上篇）

面试篇——决策树/集成学习（下篇）

面试篇——机器学习中的损失函数

面试篇——机器学习中的评估指标

面试篇——神经网络高频面试题(上)

面试篇——神经网络高频面试题(下)

【机器学习】逻辑回归（非常详细）

LR和SVM的区别

文章目录

2 机器学习概述
3 线性模型
4 前馈神经网络
网络优化
参数初始化
归一化
网络正则化
- dropout
- 标签平滑
7 作业
CNN
- $H\times W$ 的特征图卷积后的大小如何计算

2 机器学习概述

习题2-1 分析为什么平方损失函数不适用于分类问题．

在这里插入图片描述

在这里插入图片描述
写错了，是 $xy(y-\sigma)\sigma(1-\sigma)$

从损失函数上限、距离角度

直观上，对特定的分类问题，平方差的损失有上限(所有标签都错，损失值是一个有效值)，但交叉熵则可以用整个非负域来反映优化程度的程度。

分类问题中的标签，是没有连续的概念的。1-hot作为标签的一种表达方式，每个标签之间的距离也是没有实际意义的，所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。

从分布的角度

平方损失函数意味着模型的输出是以预测值为均值的高斯分布，损失函数是在这个预测分布下真实值的似然度

※ 最小化平方损失函数本质上等同于在误差服从高斯分布的假设下的极大似然估计，然而大部分分类问题的误差并不服从高斯分布。

从梯度的角度

※ 而且在实际应用中，交叉熵在和Softmax激活函数的配合下，能够使得损失值越大导数越大，损失值越小导数越小，这就能加快学习速率。然而若使用平方损失函数，则损失越大导数反而越小（看后面的图），学习速率很慢。

还有个原因应该是softmax带来的vanishing gradient吧。预测值离标签越远，有可能的梯度越小。李龙说的non-convex 问题，应该是一种提现形式。

习题2-2 线性回归的样本权重

在这里插入图片描述

在这里插入图片描述

权重 $r^{(n)}$ 的作用：
为每个样本都分配了权重，相当于每个样本都设置了不同的学习率，每个样本的重视程度不一样

局部线性回归可以实现对临近点的精确拟合同时忽略那些距离较远的点的贡献，即近点的权值大，远点的权值小，k为波长参数，控制了权值随距离下降的速度，越大下降的越快。越小越精确并且太小可能出现过拟合的问题。

但局部线性回归不会得到一条适合于全局的函数模型，在每一次预测新样本时都会重新的确定参数，从而达到更好的预测效果。当数据规模比较大的时候计算量很大，学习效率很低。

习题2-3 $XX^T$ 的秩

在这里插入图片描述

在这里插入图片描述

2-4 结构风险最小化最小二乘估计岭回归

在这里插入图片描述

2-5 最大似然估计与最小二乘估计在标签服从高斯分布时等价

在这里插入图片描述

2.6 最大似然估计与最大后验估计

在这里插入图片描述

2.9 欠拟合→高偏差，过拟合→高方差

在这里插入图片描述

2.11 N-gram

假设以每个字字为基本单位，一元：|我|打|了|张|三|#；二元：我|我打|打了|了张|张三|三#；三元：我打|我打了|打了张|了张三|张三#。

当n增长时，计算压力和参数空间会迅速增长。n越大，数据越稀疏。然而，当n很小的时候，例一元模型，仅仅只是根据当前一个字来判断下一个字可能是什么，未免有失偏颇。

在这里插入图片描述

在这里插入图片描述

3 线性模型

多分类

在这里插入图片描述
“一对其余”方式和“一对一”方式都存在一个缺陷：特征空间中会存在一些难以确定类别的区域，

在这里插入图片描述

argmax方法是不是可以这样理解：如果有C个类，那么对于每个类都训练一个二分类器，如logisticsRegression。预测的时候对每个类输出一个概率值，取概率值最大的那个类

Logistic Regression

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

看不懂：
在这里插入图片描述

有空搞一下其他形式的logistics：

请问Logit 、 tobit模型、Probit模型有什么区别？它们各自适用的条件是什么？

在这里插入图片描述

Softmax Regression

在这里插入图片描述

在这里插入图片描述

感知机

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

感觉不太会考，有空看看。。

支持向量机

在这里插入图片描述

在这里插入图片描述

对于一个线性可分的数据集，其分割超平面有很多个，但是间隔最大的超平面是唯一的．

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

$y\cdot \hat{y}$ 形式的损失函数

LR和SVM的区别

交叉熵

在这里插入图片描述

感知机

损失函数：误分类点到超平面的距离

在这里插入图片描述

软间隔支持向量机

损失函数：合页损失（Hinge Loss）

在这里插入图片描述

平方损失

$y^2=1$

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

LR SVM 联系区别

参数模型与非参数模型

参数模型和非参数模型中的“参数”并不是模型中的参数，而是数据分布的参数。

参数模型通常假设总体服从某个分布，这个分布可以由一些参数确定，如正态分布由均值和标准差确定，在此基础上构建的模型称为参数模型；
非参数模型对于总体的分布不做任何假设或者说是数据分布假设自由，只知道其分布是存在的，所以就无法得到其分布的相关参数，只能通过非参数统计的方法进行推断。

非参数模型也并不是没有参数，而是参数的数目很多

non-parametric类似单词priceless，并不是没有价值，而是价值很高。

在这里插入图片描述

今日面试题分享：LR和SVM的联系与区别

在这里插入图片描述

在这里插入图片描述

这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。

SVM的处理方法是只考虑 support vectors，也就是和分类最相关的少数点，去学习分类器。

而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重,两者的根本目的都是一样的。

在这里插入图片描述

3.1 证明在两类线性分类中，权重向量𝒘与决策平面正交．

在这里插入图片描述

3.2 y=wx+b 与几何距离

在这里插入图片描述

3.3 线性分类中，权重向量一定是训练样本特征的线性组合

没太能看懂。。

在这里插入图片描述

优化目标

$Xw)y^T>0$

误差为0

$X p = 0$

$X (y - X w) = 0$

重点

最低0.47元/天解锁文章

数学工具构造器

关注

3
点赞
踩
48

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习-课后习题

文章目录2 机器学习概述习题2-1 分析为什么平方损失函数不适用于分类问题．习题2-2 线性回归的权重习题2-3 XXTXX^TXXT的秩2-4 结构风险最小化最小二乘估计岭回归2-5 最大似然估计与最小二乘估计在标签服从高斯分布时等价2.6 最大似然估计与最大后验估计2.9 欠拟合→高偏差，过拟合→高方差2.11 N-gram3 线性模型多分类Logistic RegressionSoftmax Regression感知机支持向量机y⋅y^y\cdot \hat{y}y⋅y^ 形式的损失函数LR S
复制链接

扫一扫

数学工具构造器 CSDN认证博客专家 CSDN认证企业博客

码龄6年

503: 原创

3万+: 周排名

226万+: 总排名

40万+: 访问

: 等级

7981: 积分

198: 粉丝

171: 获赞

130: 评论

563: 收藏

私信

关注

热门文章

分类专栏

最新评论

编写C++代码理解原码和补码
做而论道_CS: 所谓的：机器数符号位原码反码 ... 都是计算机专家在【忽悠、卖拐】而已。正负数值，存入计算机，都是以 “补码” 存放的。计算机中，根本就没有原码和反码。除非，你偏要自寻烦恼，偏要在计算机中，存入原码和反码。既然没有原码反码，那么，取反加一，计算机也就不能做了。其实，所谓的 “补码”，也是正常的数字。　也并非一定是二进制数。你看十进制吧，两位数：0 ~ 99。可以有：27 + 99 = (一百) 26 也可以：27 － 1 = 26 如果你忽略进位，依旧保持两位数，　这两种算法的功能，就是相同的！就是说，当你舍弃了进位：　负数，就能用正数代替；　加法，竟然就能实现减法运算！在计算机中，舍弃进位，会怎样？　就可以简化硬件。　用一个加法器，便可横行天下！由此可知，“补码”，根本就不是什么新鲜事。　“补码” 关键，是：【舍弃进位】。　并不是：符号位原码反码取反加一。－－－－－－－－－－－用两位十进制运算时，舍弃进位，就是【减去一百】。那么，加 99，再减 100，当然就是 “－1” 了。计算机使用的，是二进制数。八位二进制数是：0000 0000 ~ 1111 1111。相当于十进制数：0 ~ 255。如果出现 “进位 = 1”，就是：2^8 = 256。那么，加 255，再减 256，这也就是 “－1” 了。所以：+255 (1111 1111)，就是：－1；同理：+254 (1111 1110)，就是：－2；　　　+253 (1111 1101)，就是：－3；　　　。。。　。。。　　　+128 (1000 0000)，即：－128。以上这些正数，就是计算机专家 “发明” 的补码了。由此可知：　所谓的 “补码”，也是正常的数字。　之所以能代替负数，关键是【舍弃了进位】。　“补码” 与 “符号位原码反码” 也没有任何关系。至此，你肯定能看出关系式：　负数的补码 = 256 + 该负数。一般化，就是：　负数的补码 = 2^n + 该负数。　n，是二进制数的位数。例：求－31 的 “补码” 是多少？解：256－31 = 225 = 1110 0001 (二进制)。　这不就求出来了吗？　　哪还用琢磨什么：符号位原码取反。。。！　　　还要啥自行车啊！
UltraOpt：比HyperOpt更强的超参优化库
2401_84289284: 为什么安装运行代码后出现Invalid optimizer string-indicator: ETPE呢？
C++ 学习
不知名的憨包: 这是什么课程啊，在哪里看啊
ASTGCN
gsagsfasds: 你好，请问你使用原mxnet版本的代码跑通了吗
sdf转smi
野蛮北野1: 作者，您好我想请问一下这个代码是什么意思、我没太看懂（初学者我是）

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。