数据分析简单题目分享(附答案)

前言:

在当今数字化时代,数据分析已成为解决问题、制定战略和做出明智决策的不可或缺的工具。无论是业务决策者、数据科学家还是对技术感兴趣的初学者,理解和掌握数据分析都是提升竞争力的关键。因此,本篇博客将为您呈现一系列简单而富有深度的数据分析题目,旨在巩固您的基础知识,同时通过附带的答案,确保您能够轻松理解和运用这些概念。让我们一同踏上这趟探索数据洞察之旅,探讨如何在海量信息中发现隐藏的宝藏。

1. 不用任何公开参考资料,估算今年新生儿出生数量

解答:

1)采用两层模型(人群画像*人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率
2)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测
3)找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如X2007/新生儿2007位为2007年新生儿家庭用户的转化率。该转化率会随平台发展而发展,可以根据往年数量推出今年的大致转化率,并根据今年新增新生儿家庭用户数量推出今年估计的新生儿数量。

2.观测宇宙中单位体积内星球的个数,属于什么分布:

A 学生分布:小样本量下对正态分布的均值进行估计
B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。
C 正态分布:多组(多次独立重复实验下的随机变量的均值)
D 二项分布:多次抛硬币的独立重复试验
解答:
A 学生分布:小样本量下对正态分布的均值进行估计
B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。
C 正态分布:多组(多次独立重复实验下的随机变量的均值)
D 二项分布:多次抛硬币的独立重复试验
把体积看成时间,那么本题符合B泊松分布。

3. 常用降维的方法

1)PCA与因子分析
2)LDA
3)流形法:LLE(局部线性嵌入)、拉普拉斯特征映射、ISOMAP
4)自动编码机抽特征
5)SVD
6)树模型抽特征
7)embedding

4.用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少

解答:用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少
采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:
1)感知有用性:
a. 文案告知用户选择属性能给用户带来的好处
2)感知易用性:
a. 关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择
b. 交互性做好
3)使用者态度:用户对填写信息的态度
a. 这里需要允许用户跳过,后续再提醒用户填写
b. 告知用户填写的信息会受到很好的保护
4)行为意图:用户使用APP的目的性,难以控制
5)外部变量:如操作时间、操作环境等,这里难以控制

5.SVM的优点和缺点

1)优点:
a. 能应用于非线性可分的情况
b. 最后分类时由支持向量决定,复杂度取决于支持向量的数目而不是样本空间的维度,避免了维度灾难
c. 具有鲁棒性:因为只使用少量支持向量,抓住关键样本,剔除冗余样本
d. 高维低样本下性能好,如文本分类
2)缺点:
a. 模型训练复杂度高
b. 难以适应多分类问题
c. 核函数选择没有较好的方法论

6.简单的介绍随机森林,以及一些细节

1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力
2)随机方法包括:subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)
3)有放回抽样,可以用包外样本做检验
4)也可以用OOB做特征选择,思路:
    a. 如果一个特征有效,那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布,所以更好的方式是对特征中的取值进行洗牌,然后计算前后模型的差异
    c. 但是我们不想训练两个模型,可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌,然后扔进训练好的模型中,用输出的结果进行误差检验

(参考@王玮 的回答:https://www.zhihu.com/question/26225801)

6.GBDT原理介绍下

1)首先介绍Adaboost Tree,是一种boosting的树集成方法。基本思路是依次训练多棵树,每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权,在进行有放回抽样时,分错的样本更有可能被抽到

2)GBDT是Adaboost Tree的改进,每棵树都是CART(分类回归树),树在叶节点输出的是一个数值,分类误差就是真实值减去叶节点的输出值,得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值

在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。

(参考:https://www.cnblogs.com/pinard/p/6140514.html)

3)得到多棵树后,根据每颗树的分类误差进行加权投票

结尾:

通过本篇博客的学习,您不仅仅是解决了一系列简单的数据分析问题,更是加深了对数据背后原理的理解。数据分析并非仅限于公式和工具,它是一门帮助我们了解世界、做出明智决策的艺术。希望这些简单的题目能够为您构建一个坚实的数据分析基础,成为您在日常工作中更深入思考和解决问题的起点。随着技能的不断提升,愿您在数据的海洋中航行自如,发现更多令人惊叹的发现。在您的数据分析旅程中,不断学习、勇攀高峰,愿您的每一次分析都为您带来新的洞见和启示

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
链家数据分析是指对链家网站所公开的房屋交易数据进行统计、分析和挖掘,以了解房地产市场的动态和趋势。这种分析可以通过对各种指标的统计,如房屋平均售价、成交量、房型分布、地理位置等,来揭示房地产市场的供需关系、价格趋势以及不同地区的特点。 链家作为中国房地产市场的领先者,拥有庞大而专业的房屋交易数据资源。通过对这些数据的深入研究分析,可以帮助大家更好地了解房屋市场的运行规律,为房地产投资者、买家和卖家提供有用和准确的数据参考。 链家网站的数据分析主要有以下几个方面的价值和应用: 1. 市场趋势分析:通过对一定时间范围内的房屋交易数据进行统计和分析,可以得出市场价格的趋势,以及不同房型、地段的受欢迎程度。这对投资者和个人购房者来说非常有参考价值,能够帮助他们做出明智的投资决策。 2. 区域特点分析:通过对不同地区的房屋交易数据统计和比较,可以了解不同地区的特点和优势。比如,可以发现某个地区的房价上涨幅度较大,可能是因为近的交通、教育、商业等配套设施的发展推动了房地产市场的繁荣。这对于购房者来说,可以帮助他们选择合适的购房地点。 3. 调控政策影响分析:在中国房地产市场,政府的调控政策会对房屋价格和交易量产生重要影响。通过对链家数据的分析,可以研究政策的效果和对市场的影响程度,为房地产从业者和投资者提供政策解读和预测。 总之,链家数据分析是通过对链家网站所公开的房屋交易数据进行统计和分析,帮助人们了解房地产市场的供需关系、价格变动趋势和不同地区的特点。这对房地产投资者、个人购房者和政策制定者来说,都具有重要的参考价值和指导作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老虎也淘气

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值