5.03面试题总结

最新推荐文章于 2024-04-17 14:38:25 发布

皮皮猪QAQ

最新推荐文章于 2024-04-17 14:38:25 发布

阅读量461

点赞数 2

分类专栏：面试文章标签：面试

本文链接：https://blog.csdn.net/qq_39037383/article/details/89788681

版权

面试专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.sql语句,在同一张表中筛选出重复的行
select id，count(1) from A group by id having count(1) > 1;
having是一种可以和group by 联合使用的语句，可以对group by 后的数据进行条件过滤。
2.Btree与B+tree区别与时间复杂度
1、B+tree所有的data都存储在子叶节点中，而不存储在非子叶节点，Btree则在非子叶与子叶节点都有可能存储。
2、B+tree在所有叶子节点增加了一个可指向的链指针，使操作性变得更加灵活
当一个数据被用到时，其附近的数据也通常会马上被使用
程序运行期间所需要的数据通常比较集中
所以B+tree的结构形式比Btree在处理I/O操作时更加简便节省资源。
3.矩阵逻辑思考题
在这里插入图片描述

如何处理缺失数据
1.随机缺失数据
与观察到的数据有关，且与为观察到的数据无关
2.非随机缺失数据
与结果有因果关系，会随结果的变化而变化
我们在进行数据分析时，面对缺失数据首先要进行思考选择数据删除还是进行插补。
1.简单删除法
将缺失数据进行简单删除，在数据集中为NaN，通常在python中我们会选择使用pandas库中dropna函数来进行缺失数据的简单删除操作，这样删除少量缺失数据的做法，通常在数据处理中是最简单的，也常常是最有效的。
2.权重法
将缺失数据置为空，然后通过对预测结果添加权重值来实现减少对结果的误差，通常权重的效果可以减少偏差值，权重的生成我们通常会使用logistic或者probit回归来解决（probit回归的函数曲线基本与logistic重合，probit的结果通常乘以1.814会与logistic接近吻合），但是对于多个案特征缺失的情况下，需要多个对应的权重，这样使得计算量大大增加，预测的偏差也会不断增大，所以在多特征缺失的情况下，权重法并不适用。
当然我们在缺失数据的处理手段中还可以选择插补。
1.均值插补法
对连续变量进行获取均值进行插补，对于离散数据使用统计学中的众数进行插补。
2.均值同类插补法
对样本进行聚类分析，通过获得根据获取所有缺失值构建缺失数据集，放入聚类样本中训练，通过预测获得缺失值，进行填补
3.最大似然估计
通过缺失数据，构建似然函数，进行概率估计最大概率的可能性，然后通过梯度下降法进行求解，求得最大概率事件，对缺失数据进行填补
4.多重插补法
将缺失数据转化为贝叶斯估计问题，通过观察同特征的未缺失样本，给出可能出现的数据，将这些数据组合成数据集，通过噪声优化再进行插补，然后分别插入通过评估函数进行评估，通过评估值得出缺失数据。
这里我们要注意数据分析得严谨性，非随机缺失数据不能置空，否则可能会影响预测结果，可以通过因果关系构建回归函数进行预测求解

皮皮猪QAQ

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5.03面试题总结

1.sql语句,在同一张表中筛选出重复的行select id，count(1) from A group by id having count(1) > 1;having是一种可以和group by 联合使用的语句，可以对group by 后的数据进行条件过滤。2.Btree与B+tree区别与时间复杂度1、B+tree所有的data都存储在子叶节点中，而不存储在非子叶节点，Btre...
复制链接

扫一扫

专栏目录