数据分析简单题目分享（附答案）

老虎也淘气

已于 2024-01-22 10:23:01 修改

阅读量1.3k

点赞数 4

文章标签：数据分析

于 2023-03-15 15:32:11 首次发布

本文链接：https://blog.csdn.net/m0_66106755/article/details/129557137

版权

前言：

在当今数字化时代，数据分析已成为解决问题、制定战略和做出明智决策的不可或缺的工具。无论是业务决策者、数据科学家还是对技术感兴趣的初学者，理解和掌握数据分析都是提升竞争力的关键。因此，本篇博客将为您呈现一系列简单而富有深度的数据分析题目，旨在巩固您的基础知识，同时通过附带的答案，确保您能够轻松理解和运用这些概念。让我们一同踏上这趟探索数据洞察之旅，探讨如何在海量信息中发现隐藏的宝藏。

1. 不用任何公开参考资料，估算今年新生儿出生数量

解答：

1）采用两层模型（人群画像*人群转化）：新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率
2）从数字到数字：如果有前几年新生儿出生数量数据，建立时间序列模型（需要考虑到二胎放开的突变事件）进行预测
3）找先兆指标，如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率，如X2007/新生儿2007位为2007年新生儿家庭用户的转化率。该转化率会随平台发展而发展，可以根据往年数量推出今年的大致转化率，并根据今年新增新生儿家庭用户数量推出今年估计的新生儿数量。

2.观测宇宙中单位体积内星球的个数，属于什么分布：

A 学生分布：小样本量下对正态分布的均值进行估计
B 泊松分布：某段时间内，事件发生的概率。也可以认为是n很大p很小的二项分布。
C 正态分布：多组（多次独立重复实验下的随机变量的均值）
D 二项分布：多次抛硬币的独立重复试验
解答：
A 学生分布：小样本量下对正态分布的均值进行估计
B 泊松分布：某段时间内，事件发生的概率。也可以认为是n很大p很小的二项分布。
C 正态分布：多组（多次独立重复实验下的随机变量的均值）
D 二项分布：多次抛硬币的独立重复试验
把体积看成时间，那么本题符合B泊松分布。

3. 常用降维的方法

1）PCA与因子分析
2）LDA
3）流形法：LLE（局部线性嵌入）、拉普拉斯特征映射、ISOMAP
4）自动编码机抽特征
5）SVD
6）树模型抽特征
7）embedding

4.用户刚进来APP的时候会选择属性，怎样在保证有完整用户信息的同时让用户流失减少

解答：用户刚进来APP的时候会选择属性，怎样在保证有完整用户信息的同时让用户流失减少
采用技术接受模型（TAM）来分析，影响用户接受选择属性这件事的主要因素有：
1）感知有用性：
a. 文案告知用户选择属性能给用户带来的好处
2）感知易用性：
a. 关联用户第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择
b. 交互性做好
3）使用者态度：用户对填写信息的态度
a. 这里需要允许用户跳过，后续再提醒用户填写
b. 告知用户填写的信息会受到很好的保护
4）行为意图：用户使用APP的目的性，难以控制
5）外部变量：如操作时间、操作环境等，这里难以控制

5.SVM的优点和缺点

1）优点：
a. 能应用于非线性可分的情况
b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难
c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本
d. 高维低样本下性能好，如文本分类
2）缺点：
a. 模型训练复杂度高
b. 难以适应多分类问题
c. 核函数选择没有较好的方法论

6.简单的介绍随机森林，以及一些细节

1）随机森林原理：通过构造多个决策树，做bagging以提高泛化能力
2）随机方法包括：subsample（有放回抽样）、subfeature、低维空间投影（特征做组合，参考林轩田的《机器学习基石》）
3）有放回抽样，可以用包外样本做检验
4）也可以用OOB做特征选择，思路：
    a. 如果一个特征有效，那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布，所以更好的方式是对特征中的取值进行洗牌，然后计算前后模型的差异
    c. 但是我们不想训练两个模型，可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌，然后扔进训练好的模型中，用输出的结果进行误差检验

（参考@王玮的回答：https://www.zhihu.com/question/26225801）

6.GBDT原理介绍下

1）首先介绍Adaboost Tree，是一种boosting的树集成方法。基本思路是依次训练多棵树，每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权，在进行有放回抽样时，分错的样本更有可能被抽到

2）GBDT是Adaboost Tree的改进，每棵树都是CART（分类回归树），树在叶节点输出的是一个数值，分类误差就是真实值减去叶节点的输出值，得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

（参考：https://www.cnblogs.com/pinard/p/6140514.html）

3）得到多棵树后，根据每颗树的分类误差进行加权投票

结尾：

通过本篇博客的学习，您不仅仅是解决了一系列简单的数据分析问题，更是加深了对数据背后原理的理解。数据分析并非仅限于公式和工具，它是一门帮助我们了解世界、做出明智决策的艺术。希望这些简单的题目能够为您构建一个坚实的数据分析基础，成为您在日常工作中更深入思考和解决问题的起点。随着技能的不断提升，愿您在数据的海洋中航行自如，发现更多令人惊叹的发现。在您的数据分析旅程中，不断学习、勇攀高峰，愿您的每一次分析都为您带来新的洞见和启示

老虎也淘气

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
3
评论
数据分析简单题目分享（附答案）

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。B 泊松分布：某段时间内，事件发生的概率。
复制链接

扫一扫