大厂面试经(4)

问30:采样时,你会有什么偏差?

潜在的偏见包括:

· 抽样偏差:由非随机抽样引起的偏差样本

· 覆盖偏差下:抽样观测值太少

· 生存偏差:忽略没有通过某种形式的选择过程的观测错误。

问31:你如何控制偏差?

你可以做很多事情来控制偏差并使偏差最小化。两项常见的事情包括: 随机化(随机分配参与者)和 随机抽样,即在抽样中每个成员被选择的概率相等。

问32:什么是混杂变量?

混杂变量或混杂因素是既影响因变量又影响自变量的变量,它导致一种虚假关联,这是一种两个或多个变量相关但没有因果关系的数学关系。

问33:什么是A / B检验?

A / B检验是假设检验和双样本假设检验的一种形式,用于比较单个变量的两个版本,即控件变量和变异变量。它通常用于改善和优化用户体验和营销。

问34:如何通过仅知道性别身高来证明男性平均比女性高?

你可以使用假设检验来证明男性平均身高高于女性。

原假设假设男性和女性的平均身高相同,而替代假设假设男性的平均身高大于女性的平均身高。

然后,你将随机收集一个男性和女性身高的样本,并使用t检验来确定是否拒绝该原假设。

问35:医院的感染率高于每100人/日1次感染的风险被认为很高。在过去的1787人/日里,一家医院有10次感染处于危险之中。给出医院是否低于标准的 正确单侧检验的p值 。

由于我们着眼于给定时间范围内发生的事件数(感染数),因此这是一个泊松分布问题。

151336k5nj1j8kiba1i1lw.png

原假设(H0):每人每日1次感染

替代假设(H1):每人每日感染次数> 1

k(实际)= 10次感染

λ(理论)=(1/100)* 1787

使用Excel中的.poisson或R中的ppois计算得出的p = 0.032372或3.2372%

由于p值
问36:你掷出一枚有偏差硬币(p(正面)= 0.8)五次。获得三次或更多次正面的概率是多少?

使用一般二项式概率公式来回答以下问题:

151416q9bbohoyoucqygoo.png

p = 0.8

n = 5

k = 3,4,5

P(3次或更多次正面)= P(3次正面)+ P(4次正面)+ P(5次正面)= 0.94或94%

问37:一个随机变量X是正常的,平均值为1020,标准差为50。计算P(X> 1200)

使用Excel…

p = 1-norm.dist(1200,1020,50,true)

p = 0.000159

问38:考虑到出现在公交车站的人数是Poisson,平均为2.5 / h。在四个小时内最多三个人出现的概率是多少?

x = 3

平均值= 2.5 * 4 = 10

使用Excel…

p = poisson.dist(3,10,true)

p = 0.010336

问39:HIV检测的灵敏度为99.7%,特异性为98.5%。患病率为0.1%的受试者获得阳性测试结果。测试的精确度是多少(即他是HIV阳性的概率)?

151501szd1o3qf5p051f5v.png

精确度=正预测值(Positive Predictive Value)= PV

PV =(0.001 * 0.997)/ [(0.001 * 0.997)+((1-0.001)*(1-0.985))]

PV = 0.0624或6.24%

问40:你正在竞选公职,民意测验人员对数百人进行了投票。他们中有60人声称将投票支持你。你能放松一下吗

· 假设只有你和另一个对手。

· 另外,假设我们需要95%的置信区间。这为我们提供了1.96的z分数。

151546hm0jyp8z8i8070p7.png

p-hat= 60/100 = 0.6

z * = 1.96

n = 100

这使我们的置信区间为[50.4,69.6]。因此,在置信区间为95%的情况下,如果你可以接受最糟糕的平局情况,那么你可以放松。否则,你不能放松,直到你得到100分中的61分才能说可以放松。

问41:盖革计数器(Geiger Counter)在5分钟内记录了100次放射性衰变。找出每小时衰减次数的大约95%间隔。

· 由于这是一个泊松分布问题,因此均值= lambda =方差,这也意味着标准偏差=均值的平方根

· 95%的置信区间表示z分数为1.96

· 一个标准偏差= 10

因此,置信区间= 100 +/- 19.6 = [964.8,1435.2]

问42:苏格兰的凶杀率从去年的115降至去年的99。这个报道的变化是否真的值得关注?

· 由于这是一个泊松分布问题,因此均值= lambda =方差,这也意味着标准偏差=均值的平方根

· 95%的置信区间表示z分数为1.96

· 一个标准差= sqrt(115)= 10.724

因此,置信区间= 115 +/- 21.45 = [93.55,136.45]。由于99在此置信区间内,因此我们可以假定此变化不是很值得注意。

问43:考虑两个双亲异性恋家庭的流感流行情况,假设父母中至少有一方患上该病的概率为17%。父亲患上流感的概率为12%,而父亲和母亲都患此病的概率为6%。母亲感染流感的概率是多少?

在概率中使用通用加法规则:

P(母亲或父亲)= P(母亲)+ P(父亲)- P(母亲和父亲)

P(母亲)= P(母亲或父亲)+ P(母亲和父亲)- P(父亲)

P(母亲)= 0.17 + 0.06-0.12

P(母亲)= 0.11

问44:假设35-44岁男性的舒张压(DBP)正态分布的平均值为80(mm Hg),标准差为10。一个35-44岁随机年龄的男性的DBP低于70的概率是多少?

由于70是低于平均值的一个标准差,因此取一个标准差左侧的高斯分布的区域。

= 2.3 + 13.6 = 15.9%

问45:在感兴趣的人群中,有9名男性样本产生的平均大脑体积为1,100cc,标准差为30cc。在此新人群中,学生平均脑容量的95%置信区间T是多少?

151642govjgvgf93g20go9.jpeg

给定95%的置信度并且自由度等于8,则t分数= 2.306

置信区间= 1100 +/- 2.306 *(30/3)

置信区间= [1076.94,1123.06]

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值