大数据与人工智能实验室|机器学习组|第四次考核订正

1.写出激活函数并写出它的表达式和图像

-Sigmoid函数:也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。

图像:

表达式:

-Tanh / 双曲正切激活函数:在一般的二元分类问题中,tanh 函数用于隐藏层,而 sigmoid 函数用于输出层

图像:

表达式:

-ReLU 激活函数:深度学习中较为流行,不存在梯度饱和问题且计算速度快。

图像:

表达式:

其它结果参考链接如下:

深度学习领域最常用的10个激活函数,一文详解数学原理及优缺点 (thepaper.cn)https://m.thepaper.cn/baijiahao_11444171机器学习中的激活函数 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/258124413

2.为什么在机器学习中引入激活函数,例如在房价预测中加入激活函数

什么是激活函数?

神经网络中每个神经元接受上一层神经元的输出值作为本神经元的输入值并将输入值传递给下一层。输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入的函数关系就被称为激活函数,也成为激励函数。

不加入激励函数则每个节点的输入都是上层输出的线性函数,那么逼近能力就有限。所以要引入非线性函数。

-激活函数的作用:增加非线性因素,解决线性模型表达能力不足的缺陷。

简单点说就是:生活中真实的例子很复杂,很难将所有的数据用直线来表示出来,实际上真实的数据更容易用曲线表示。所以引入了激活函数。

3.简述随机梯度下降,批梯度下降的区别和各自优点

-随机梯度下降:就是引入了随机性的梯度下降算法

为了加速训练的过程,可以使用随机梯度下降算法(stochastic gradient descent-SGD)。随机梯度下降算法也是称为"在线学习"。

随机梯度下降优势:

- 这个算法优化的不是在全部训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快。

但是带来了如下问题:

- 在某一条数据上损失函数更小并不代表在全部数据上的损失函数更小,于是使用随机梯度下降优化得到的神经网络甚至可能无法达到全局最优。

参考内容:

浅谈随机梯度下降&小批量梯度下降 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/277709879-批梯度下降:每次计算一小部分训练数据的损失函数,这一小部分训练数据也称为一个batch

引入batch有很好的优势:

通过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多。

每次使用一个batch可以大大减小收敛所需要的迭代次数,同时可以使收敛到的结果更加接近梯度下降的效果。

头疼的问题是:如何在合理的范围内增大Batch_size(或者说最优Batch_size)

参考内容:梯度下降、随机梯度下降与批梯度下降算法之间的比较 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/37714263

 

4.线性判别分析(LDA)中,我们最想要优化的两个数值是什么(聚类算法也是以这两个数据为目标进行优化)

类内距离和类间距离

5. 请写出交叉熵损失函数

对单个样本,假设真实分布为y,网络输出分布为\widehat{y},总的类别数为n,则在这种情况下,交叉熵损失函数的计算方法为:


对一个batch,单标签n分类任务的交叉熵损失函数的计算方法为:

7.关于MLE(最大似然估计),下面哪一项或几项说法是正确的

MLE可能不存在/MLE总是存在/如果MLE存在,可能不是唯一的/如果MLE存在,肯定是唯一的

答案:

MLE可能不存在

如果MLE存在,可能不是唯一的

- 首先,什么是似然什么是概率?

概率是不知道结果的情况下预测可能出现的结果,比如抛硬币猜哪面朝上

似然是在确定的结果下去推测产生这个结果的可能环境,比如拿到一枚正面朝上的硬币推测如何抛出。

用 θ 表示环境对应的参数,x 表示结果,那么概率可以表示为:P(x|θ) 

首先有些分布不一定存在似然函数,其次似然函数不一定有最大值,比如非连续的分布。

8.下面回归模型哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()

A.多项式的阶数

B.是否通过矩阵求逆或梯度下降学习权重

C.使用常数项

选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。
在这里插入图片描述

9.以下关于线性回归和逻辑回归描述错误的是()
A.线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是分类型变量
B.线性回归直接分析因变量与自变量的关系,而逻辑回归分析因变量取某个值的概率与自变量的关系
C.线性回归要求因变量是分类型变量,而逻辑回归要求因变量是连续性数值变量D.逻辑回归的因变量可以是二分类的,也可以是多分类的

利用大量的样本D = ( x i , y i ) i = 1 N D={(x_i,y_i)}_{i=1}^ND=(x i ,y i) i=1N ,通过有监督的学习,学习到由x到y的映射f ff,利用该映射关系对未知的数据进行预估,因为y为连续值,所以是回归问题。
C错误

10.类别不平衡会带来什么影响,如何有效处理类别不平衡的问题

什么是类别不平衡?

举个例子:在银行信用欺诈交易识别中,属于欺诈交易的应该是很少部分,绝大部分交易是正常的,这就是一个正常的类别不平衡问题。

11.我们知道信息量的多少由信息的不确定性来衡量,信息量越大,信息的不确定性越大,信息熵的值越大。信息量越少,信息的不确定性越小,信息熵的值越小。请写出信息熵的公式。

注:设集合D中第k类样本所占的比例为Pk(k=1,2,3,……,m)。

这里是引用

14.什么是假设检验?

假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

15.评价一个模型的好坏一般用什么来评价

当说到预测模型时,我们会想到有回归模型和分类模型。用于评价这两种模型的度量是不相同的。我们首先要说的是分类问题。
在分类问题中,我们用两种算法:分类输出型:算法像支持向量机和KNN那样,输出的是分类型数据。例如一个二分类问题,它的输出不是0就是1。概率输出型:这个有逻辑回归、随机森林、梯度提升、Adaboost等算法,都是以概率作为输出的。要想把概率型输出变为分类型输出,只要为其设立一个阈值即可。

16.完整机器学习项目主要步骤

1、抽象成数学问题
2、获取数据
3、 特征预处理与特征选择
4 、训练模型与调优
5 、模型诊断
6、 模型融合/集成
7、 上线运行

17.定义一个学生类
一.有下面的类属性:姓名 年龄 成绩(语文、数学、英语)每课成绩的类型为整数
二.类方法
1.获取学生的姓名:get_name() 返回类型:str
2.获取学生的年龄:get_age() 返回类型:int
3.返回3门科目中的最高分:get_course() 返回类型:int

class student:
    def __init__(self,name,age,score):
        self.name=name
        self.age=age
        self.score=score
    def get_name(self):
        return self.name
    def get_age(self):
        return self.age
    def get_course(self):
        a=list(self.score.values())
        return max(a)
student_1=student("张三",20,{"语文":100,'数学':90,'英语':80})
print(student_1.get_name())
print(student_1.get_age())
print(student_1.get_course())


18.__init __方法有什么作用,如何定义

__init __()这个特殊的方法就可以方便地自己对类的属性进行定义,init()方法又被称为构造器(constructor)
我们通过实现init()方法来初始化对象。当一个对象被创建,Python首先创建一个空对象,然后为那个新对象调用init()方法。这个方法函数通常用来创建对象的实例变量并执行任何其他一次性处理。
def __init __()

19.定义一个水果类,然后通过水果类,创建苹果对象、橘子对象、西瓜对象并分别添加上颜色属性

 class Fruit:
     pass
 apple = Fruit()
 apple.color = "红色"
 orange = Fruit()
 orange.color = "橙色"
 watermelon = Fruit()
 watermelon = "绿色"


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值