AI百题(1)

在这里插入图片描述

特征工程

question1: 为什么要对特征做归一化?

answer:
  首先要明确什么是特征归一化,特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常是统一到[0,1]但不仅限于[0,1]区间。
其次是为什么要进行特征归一化,为了消除数据特征之间的量纲影响,通常处于同一数量级的特征更方便分析。
  再进一步,所谓的方便的分析是什么意思?首先要明确一点,特征归一化使用的模型场景是使用梯度下降法求解的模型(线性回归,逻辑回归,支持向量机,神经网络),在基于梯度更新的学习方法中,未归一化的数值在学习时梯度下降通常呈现抖动趋势(通俗来说就是梯度下降的过程非常曲折),归一化是为了减少抖动,稳定同步下降,加快收敛。

在这里插入图片描述

  综上所述,1.特征归一化适用于基于梯度下降更新的学习方法
        2.减小抖动,稳定同步下降,加快收敛。

question2: 有哪些常用的归一化方法?

answer:
  线性函数归一化 Min-Max Scaling,通过原始数据的最大值和最小值对原始数据等比缩放:
在这里插入图片描述

  零均值归一化 Z-Score Normalization,引入均值µ和标准差σ进行归一化:

在这里插入图片描述

question3:什么是组合特征? 如何处理高维组合特征?

answer:
组合特征顾名思义,把离散特征组合构成高阶组合特征。如果是两两组合的组合特征,学习参数的规模是两个特征的阶数乘积mn,这样会导致维度很大,所以采用降维。降维的思路是先把一阶的特征m维和n维分别降维到k维,再组合得到 mk+nk+kk

question4:One-hot的作用是什么?为什么不直接使用数字作为表示?

answer:
先来明确什么是ONE-hot,假如有三个类别猫,狗,鸟,人们习惯上用1,2,3来分类,但是数字编码会无形之中引入排序,显然我们并不需要排序关系,其次数字之间也有差值,比如1和2相差1,1和3相差2,显然我们在分类的时候也并不希望无形之中引入类别标签之间的差值关系。所以采用one-hot编码类别特征,猫、狗、鸟的类别标签不再用数字编码1,2,3表示,而是用(0,0,1)、(0,1,0)、(1,0,0)来表示。
综上,one-hot主要用来编码类别特征,来避免数字特征编码类别带来的干扰,避免引入大小关系和差异关系。

question5:请比较欧式距离和曼哈顿距离?

answer:
欧氏距离:两个空间点之间的直线距离
在这里插入图片描述

曼哈顿距离:所有维度距离绝对值之和

在这里插入图片描述
举个例子,从一个城市到另一个城市的距离有直线距离和实际能走的路线距离两种,那么欧氏距离的作用就相当于不考虑实际可以走的路而是单纯的两点间直线距离,曼哈顿距离相当于是真正意义的城市间可行路线距离,所以通常用于导航。
从数学角度来看,曼哈顿距离考虑每个维度的贡献比例
在这里插入图片描述

参考上图,当角度发生改变的时候,欧氏距离计算左右两图,两点间的距离依然是AB的长,但是曼哈顿距离的话x和y投影的长度显然发生了变化,它们贡献比例是不一样的。

question6:为什么一些场景中使用余弦相似度而不是欧式距离?

answer:
余弦距离:两个向量夹角的余弦
在这里插入图片描述
欧式距离:两个空间点之间的直线距离
在这里插入图片描述
余弦距离关注向量间角度上的差异,而不关注数值上的差异,无论维度和取值范围的变化,衡量相似度的取值始终处于区间[-1,1],相比之下欧式距离受维度和取值范围的影响,更关注数值上的绝对差异,余弦距离不受维度和取值范围的影响,更关注方向上的相对差异。

模型评估

question1:过拟合现象和欠拟合现象

answer:
从表现上来看,过拟合在训练集上表现良好,在测试集上表现不好;欠拟合现象在训练集和测试集上表现都不好。
从数值上来看,过拟合的方差大偏差小,欠拟合的方差通常小偏差大。方差可以理解为在不同数据集上的表现的区别,偏差理解为预测出来的结果会有多偏的程度。

question2:降低过拟合和欠拟合的方法

answer:
在这里插入图片描述
在这里插入图片描述

question3:什么是数据不平衡,如何解决

answer:
数据不平衡:样本标签值的分布不均匀,模型倾向于预测样本分布较多的值。极端的例子就是正样本很少负样本很多,那么此时模型倾向于学习负样本。因为通常机器学习假设不同类别的训练样本数目相当,若假设不成立使得该假设下的方法不能很好的工作。
解决办法:1.欠采样:删除占比较多的那部分样本的一部分样本,使得多的那部分样本变得跟少的那部分差不多一样多。但是可能丢失一些重要信息。常用的方法是将
多的那部分划分成若干个集合让不同的学习器学习,局部上看都是欠采样,全局上看不会丢失重要信息。
2.过采样:增加少的那部分样本,但是不是简单的重复采样,仅仅重复采样会产生过拟合问题。
3.设计模型的时候代价函数惩罚稀有类别的错误,让稀有的类别尽可能少出错。

question4:回归问题常用的性能度量指标

在这里插入图片描述

question5:分类问题的度量指标

准确率:分类正确的样本个数占总样本个数的比例
在这里插入图片描述
相当于:
在这里插入图片描述

但是会有一个问题,当负样本占比严重的时候,分类器把所有样本都判定为负样本也可以获得高的准确率,所以占比不均衡的时候会影响准确率。

精确率:针对预测结果而言,分类正确的样本占预测结果的比例。引入P,N,TP,FN,FP,FN.
在这里插入图片描述
P-positive,样本标签为正样本
N-negative,样本标签为负样本
TP-样本标签为正,预测正确,判成了正样本
FN-样本标签为负,预测错误,判成了正样本
FP-样本标签为正,预测错误,判成了负样本
TN-样本标签为负,预测正确,判成了负样本。
谨记:P是真是标签为真,N表示真实标签为负,T表示判定器的判定是对的而不是判定器判定这个样本为正,F是判定器的判定是错的而不是判定器判定这个样本为负
精确率定义如下:
在这里插入图片描述
召回率:预测为正样本的而且是正确的预测结果的个数,占所有
在这里插入图片描述

question6:ROC和AUC

ROC曲线:
横坐标是假阳性率
在这里插入图片描述
纵坐标是真阳性率

在这里插入图片描述
不同的阈值对应一组不同的假阳性率和真阳性率,从而构成ROC曲线
在这里插入图片描述
AUC是曲线下的面积,通常面积越大说明性能越好。ROC曲线相对于P-R曲线能尽量降低不同测试集的干扰。

# 高校智慧校园解决方案摘要 智慧校园解决方案是针对高校信息化建设的核心工程,旨在通过物联网技术实现数字化校园的智能化升级。该方案通过融合计算机技术、网络通信技术、数据库技术和IC卡识别技术,初步实现了校园一卡通系统,进而通过人脸识别技术实现了更精准的校园安全管理、生活管理、教务管理和资源管理。 方案包括多个管理系统:智慧校园管理平台、一卡通卡务管理系统、一卡通人脸库管理平台、智能人脸识别消费管理系统、疫情防控管理系统、人脸识别无感识别管理系统、会议签到管理系统、人脸识别通道管理系统和图书馆对接管理系统。这些系统共同构成了智慧校园的信息化基础,通过统一数据库和操作平台,实现了数据共享和信息一致性。 智能人脸识别消费管理系统通过人脸识别终端,在无需接触的情况下快速完成消费支付过程,提升了校园服务效率。疫情防控管理系统利用热成像测温技术、视频智能分析等手段,实现了对校园人员体温监测和疫情信息实时上报,提高了校园公共卫生事件的预防和控制能力。 会议签到管理系统和人脸识别通道管理系统均基于人脸识别技术,实现了会议的快速签到和图书馆等场所的高效通行管理。与图书馆对接管理系统实现了一卡通系统与图书馆管理系统的无缝集成,提升了图书借阅的便捷性。 总体而言,该智慧校园解决方案通过集成的信息化管理系统,提升了校园管理的智能化水平,优化了校园生活体验,增强了校园安全,并提高了教学和科研的效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值