5.03面试题总结

1.sql语句,在同一张表中筛选出重复的行
select id,count(1) from A group by id having count(1) > 1;
having是一种可以和group by 联合使用的语句,可以对group by 后的数据进行条件过滤。
2.Btree与B+tree区别与时间复杂度
1、B+tree所有的data都存储在子叶节点中,而不存储在非子叶节点,Btree则在非子叶与子叶节点都有可能存储。
2、B+tree在所有叶子节点增加了一个可指向的链指针,使操作性变得更加灵活
当一个数据被用到时,其附近的数据也通常会马上被使用
程序运行期间所需要的数据通常比较集中
所以B+tree的结构形式比Btree在处理I/O操作时更加简便节省资源。
3.矩阵逻辑思考题
在这里插入图片描述

如何处理缺失数据
1.随机缺失数据
与观察到的数据有关,且与为观察到的数据无关
2.非随机缺失数据
与结果有因果关系,会随结果的变化而变化
我们在进行数据分析时,面对缺失数据首先要进行思考选择数据删除还是进行插补。
1.简单删除法
将缺失数据进行简单删除,在数据集中为NaN,通常在python中我们会选择使用pandas库中dropna函数来进行缺失数据的简单删除操作,这样删除少量缺失数据的做法,通常在数据处理中是最简单的,也常常是最有效的。
2.权重法
将缺失数据置为空,然后通过对预测结果添加权重值来实现减少对结果的误差,通常权重的效果可以减少偏差值,权重的生成我们通常会使用logistic或者probit回归来解决(probit回归的函数曲线基本与logistic重合,probit的结果通常乘以1.814会与logistic接近吻合),但是对于多个案特征缺失的情况下,需要多个对应的权重,这样使得计算量大大增加,预测的偏差也会不断增大,所以在多特征缺失的情况下,权重法并不适用。
当然我们在缺失数据的处理手段中还可以选择插补。
1.均值插补法
对连续变量进行获取均值进行插补,对于离散数据使用统计学中的众数进行插补。
2.均值同类插补法
对样本进行聚类分析,通过获得根据获取所有缺失值构建缺失数据集,放入聚类样本中训练,通过预测获得缺失值,进行填补
3.最大似然估计
通过缺失数据,构建似然函数,进行概率估计最大概率的可能性,然后通过梯度下降法进行求解,求得最大概率事件,对缺失数据进行填补
4.多重插补法
将缺失数据转化为贝叶斯估计问题,通过观察同特征的未缺失样本,给出可能出现的数据,将这些数据组合成数据集,通过噪声优化再进行插补,然后分别插入通过评估函数进行评估,通过评估值得出缺失数据。
这里我们要注意数据分析得严谨性,非随机缺失数据不能置空,否则可能会影响预测结果,可以通过因果关系构建回归函数进行预测求解

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值