数理统计-大厂笔试题

少云清

已于 2022-03-04 04:51:16 修改

阅读量1.4k

点赞数

分类专栏： # 机器学习企业试题文章标签：概率论机器学习人工智能

于 2022-02-27 01:25:19 首次发布

本文链接：https://blog.csdn.net/brawly/article/details/122771085

版权

机器学习企业试题专栏收录该内容

9 篇文章

订阅专栏

数理统计-刷题

文章目录

- 一、单选
- 二、多选

一、单选

1、关于正态分布,下列说法错误的是（C）

A、正态分布具有集中性和对称性
B、正态分布的均值和方差能够决定正态分布的位置和形态
C、正态分布的偏度为0，峰度为1
D、标准正态分布的均值为0，方差为1

正态分布：偏度=0，峰度=0

偏度（Skewness）：衡量随机变量概率分布的不对称性；若偏度大于0，则分布右偏，即分布有一条长尾在右；若偏度小于0，则分布为左偏，即分布有一条长尾在左；同时偏度的绝对值越大，说明分布的偏移程度越严重。

峰度（Kurtosis）：研究数据分布陡峭或平滑的统计量；若峰度>0，分布的峰态陡峭（高尖）；若峰度<0，分布的峰态平缓（矮胖）；均匀分布的峰度为-1.2（平缓），指数分布的峰度为6（陡峭）。

2、从sd卡加载一张图片为bitmap并显示到屏幕上的一个view，该view占用的内存主要和什么因素有关（D）

A、图片文件大小及压缩格式
B、图片原始分辨率
C、view的尺寸
D、bitmap分辨率和颜色位数

位图（Bitmap），又称栅格图（英语：Raster graphics）或点阵图，是使用像素阵列（Pixel-array/Dot-matrix点阵）来表示的图像。

3、S市A，B共有两个区，人口比例为3：5，据历史统计A的犯罪率为0.01%，B区为0.015%，现有一起新案件发生在S市，那么案件发生在A区的可能性有多大？（C）

A、37.5%
B、32.5%
C、28.6%
D、26.1%

【条件概率】

在A区犯案概率：P(C|A)=0.01%

在B区犯案概率：P(C|B)=0.015%

【先验概率】

在A区概率：P(A)=3/8

在B区概率：P(B)=5/8

【全概率】

犯案概率：P©=（3/8 * 0.01%+5/8 * 0.015%)

【后验概率】

则犯案且在A区的概率：P(A|C)=[ P(C|A) * P(A) ] / P© =[ P(C|A) * P(A) ] / [ P(C|A) P(A)+ P(C|B) P(B) ]

[ 0.01% * (3/8) ] /（3/8 * 0.01% + 5/8 * 0.015%) ≈28.6%

含有%的概率题，可以实例化是最好的方式。故而，A区3000人，B区5000人，A区30个罪犯，B区75个罪犯。那么显然30/(30+75)=0.2857,就是C。

4、一个包里有5个黑球，10个红球和17个白球。每次可以从中取两个球出来，放置在外面。那么至少取________次以后，一定出现过取出一对颜色一样的球。（ A ）

A、16
B、9
C、4
D、1

题目要求是一定出现，考虑最坏情况，因此前面取球都是取出不一样的两个球

（黑，白）5次

（红，白）10次

（白，白）最后剩余两个白球

5、执行以下代码，a的值为（A）

#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;

a的值为

A、16
B、30
C、33
D、39

define是字符串替换，不是函数；将x+y转换成字符串的形式来进行连接前后两个式子。所以就是一个连接的作用

a+=a * a + b * b ; (3 += 3 * 3+2 * 2) ==> 16

6、下面关于ID3算法中说法错误的是（ D ）

A、ID3算法要求特征必须离散化
B、信息增益可以用熵，而不是GINI系数来计算
C、选取信息增益最大的特征，作为树的根节点
D、ID3算法是一个二叉树模型

1、特征选择准则：信息增益
2、特征必须离散化，不能处理连续值
3、不能处理缺失值
4、偏向于选择取值多的属性
5、是一个多叉树模型，只用于分类

7、每台物理计算机可以虚拟出 20 台虚拟机，假设一台虚拟机发生故障当且仅当它所宿主的物理机发生故障。通过 5 台物理机虚拟出100 台虚拟机，那么关于这 100 台虚拟机的故障的说法正确的是：（ C ）

A、单台虚拟机的故障率高于单台物理机的故障率
B、这 100 台虚拟机发生故障是彼此独立的
C、这100台虚拟机单位时间内出现故障的个数高于100台物理机单位时间内出现故障的个数
D、无法判断这 100 台虚拟机和 100 台物理机哪个更可靠
E、如果随机选出 5 台虚拟机组成集群，那么这个集群的可靠性和 5 台物理机的可靠性相同
F、可能有一段时间只有 1 台虚拟机发生故障

由于一台虚拟机发生故障当且仅当它所宿主的物理机发生故障，所以，单台虚拟机的故障率等于单台物理机的故障率

由于一台物理机的故障会导致这台物理机虚拟出来的20台虚拟机的故障，所以，基于5台物理机搭建的100台虚拟机故障率肯定高于100台物理机

8、如果某系统12*5=61成立，则系统采用的是 ( C )进制

A、7
B、8
C、9
D、10

设为n进制，（n+2) * 5=6 * n + 1。所以得 n = 9

9、20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为：（ C）
$A、5^4*5!*15!/20!$

$B、4^5*5!*15!/20!$

$C、5^4*4!*16!/20!$

$D、4^5*4!*16!/20!$

在20个人中任意选择4个人一共有C⁴ ₂₀种方案，由于要求选出的4人都不在一排就每排选择一个一共有4个C₅¹

10、在黑盒测试方法中，设计测试用例的主要根据是（ B ）

A、程序内部逻辑
B、程序外部功能
C、程序数据结构
D、程序流程图

黑盒测试是对软件已经实现的功能是否满足需求进行测试和验证，黑盒测试完全不考虑程序内部的逻辑结构和内部特性，只根据程序的需求和功能规格说明，检查程序的功能是否符合它的功能说明。

白盒测试又称结构测试、透明盒测试、逻辑驱动测试或基于代码的测试。白盒测试是一种测试用例设计方法，盒子指的是被测试的软件，白盒指的是盒子是可视的，你清楚盒子内部的东西以及里面是如何运作的。"白盒"法全面了解程序内部逻辑结构、对所有逻辑路径进行测试。"白盒"法是穷举路径测试。在使用这一方案时，测试者必须检查程序的内部结构，从检查程序的逻辑着手，得出测试数据。贯穿程序的独立路径数是天文数字。

11、计算一个任意三角形的面积，S=√(p(p-a)(p-b)(p-c)) , p=(a+b+c)/2,以下等价类测试用例中，不属于无效等价类的是（ A ）

A、a=5，b=3，c=6
B、a=2，b=3，c=5
C、a=7，b=3，c=3
D、a=2，b=6，c=3

三角形成立规则:两边之和大于第三边(两个较短边之和大于最长的第三边)，两边之差小于第三边(两个较长边之差小于最短边)。

12、若用φ（ｎ）表示欧拉函数，请问：φ（５６）的欧拉函数之积为 ( A )

A、24
B、10
C、15
D、11

欧拉函数ψ(x)指的是小于x的正整数中，与x互质的数的数目，注意1既不是合数也不是质数，故与任何数不互质，且ψ(1) =1

$ψ(x)=x*(1-\frac{1}{P_1})(1-\frac{1}{P_2})··· (1-\frac{1}{P_n})$

其中p₁, p₂……p_n为 x 的所有质因数，x 是不为0的整数。注意：每种质因数只有一个。

56=2 * 2 * 2 * 7 ， φ（56）=56 * (1-1/2) * (1-1/7) = 24

13、已知
$\sqrt{({axy^3}-y^2\cos x)dx + (1+by\sin x + 3x^2y^2)dy}$
为某二元函数的全微分，则a和b的值为==（ D ）==

A、-2，2
B、3，-3
C、-3，3
D、2，-2

格林公式

原式记为：Pdx + Qdy，某二元函数记为f(x,y)，因为原式为全微分，所以P是f(x,y)对x的偏导，Q是f(x,y)对y的偏导。由求偏导与次序无关定理（即：f’‘_xy = f’'_yx），所以P对y的导数等于Q对x的导数，然后对应系数相等即可。

简单记为：P对y的导数等于Q对x的导数

14、以下表的设计，最合理的是（ A ）

A、学生{id,name,age} ,学科{id,name} 分数{学生 id，学科 id,分数}
B、学生{id,name,age} ,分数{学生 id, 学科id, 学科 name , 分数}
C、分数{学生id, 学生 name，学生age, 学科id，学科名称, 分数, }
D、学科{id,name},分数{学生id，学生姓名，学生age，学科 id,分数}

最主要从数据库的第一范式、第二范式、第三范式考虑：

**第一范式(确保每列保持原子性)**即每列不再需要拆分

第二范式(确保表中的每列都和主键相关)

第三范式(确保每列都和主键列直接相关,而不是间接相关)

15、一个栈的入栈序列为ABCDE，则栈的不可能的输出序列为（ D ）

A、DCBEA
B、ACBED
C、DCEBA
D、DEBCA

合法的出栈序列条件：对于每个已出栈数之后的且小于此数的数都必须按降序排列。

D选项应为DECBA。

16、对于以下代码，正确的是（ D ）

char* p=new char[100];

A、p和new出来的内存都在栈上
B、p和new出来的内存都在堆上
C、p在堆上，new出来的在栈上
D、p在栈上，new出来的在堆上

p是一个指针，所以存储在栈上，p中存储的是新建的动态内存的地址，新建的动态内存在堆上。

new 出来的对象放在堆中，局部变量放在栈中。

17、编译程序是一种（A ）

A、翻译程序
B、目标程序
C、汇编程序
D、解释程序

翻译程序：指将用某种语言编写的程序转换成另一种语言形式的程序的程序，如编译程序和汇编程序等。

目标程序：计算机能够直接运行的程序（机器码）

汇编程序：把汇编语言书写的程序翻译成与之等价的机器语言程序的翻译程序。

解释程序：直接执行源程序或源程序的内部形式（中间代码），解释程序并不产生目标程序，这是它和编译程序的主要区别。

18、已知中国人的血型分布约为A型：30%，B型：20%，O型：40%，AB型：10%，则任选一批中国人作为用户调研对象，希望他们中至少有一个是B型血的可能性不低于90%，那么最少需要选多少人? （ C ）

A、7
B、9
C、11
D、13

一个人不是B型的概率是 1- 0.2 = 0.8

n个人全不是b型的概率是 0.8ⁿ, 所以n个人至少有一个是b型的概率是 1- 0.8 ⁿ > 0.9

就需要 0.8 ⁿ < 0.1 , n>=10.3,故应选11

n的最小值是11

19、1台机器对200个单词进行排序花了200秒(使用冒泡排序)，那么花费800秒，大概可以对多少个单词进行排序（ A ）

A、400
B、500
C、600
D、800

冒泡时间复杂度：n²

200–>800 ； n² -->4n² =(2n)²

所以单词是原来的2倍，原来是200个，所以是400个，选A。

20、现有4个同时到达的作业J1,J2,J3和J4,它们的执行时间分别是1小时，3小时，5小时，7小时，系统按单道方式运行且采用短作业优先算法，则平均周转时间是（ D ）小时

A、4
B、5
C、6
D、7.5

谁短谁先执行

因为是同时到达即提交时间一样

平均等待时间：将所有作业的运行时间加起来除以总的作业数（1+3+5+7）/4=4

平均周转时间：将所有作业运行的时间和等待的时间全部加起来除以作业数，这四个作业的等待时间分别是：0，1，4，9

（1+3+5+7+0+1+4+9）/4=7.5

执行次序	执行时间	开始时间	完成时间	周转时间
J1	1	0	1	1
J2	3	1	4	4
J3	5	4	9	9
J4	7	9	16	16

平均时间为:(1+4+9+16)/4=30/4=7.5

21、卡方分布的方差为2倍的自由度为（ C ）

A、n
B、1
C、2n
D、4n

卡方分布：若 n 个相互独立的随机变量ξ _₁ 、ξ _₂ 、……、ξ _n ，均服从标准正态分布（也称独立同分布于标准正态分布），则这 n 个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布（ chi-square distribution ）。

分布的均值为自由度 n ，记为 E(χ²) = n

分布的方差为 2 倍的自由度 (2n) ，记为 D(χ²) = 2n

22、在一次大选中候选人A和B进行竞选。候选人A的抽样支持率为60%，95%的置信区间为（50% - 70%），请问在最终大选中候选人A落选的概率与下列哪个最为接近（ D ）

A、40%
B、60%
C、5%
D、2.5%

p(50%<x<70%)=95%

p(x<50%或x>70%)=5%

p(x<50%)=p(x>70%)=2.5%

落选即支持率小于50%，因此为p(x<50%)=2.5%

23、在给定文件中查找与设定条件相符字符串的命令==（ B ）==

A、gzip
B、grep
C、ls
D、find

24、字符串

"//＾▽＾//\n"

的长度是（ C ）

A、6
B、7
C、8
D、9

\n是转义字符，算一个

25、设 q (n,m)是将正整数 n 划分成最大加数不大于 m 的若干不同正整数之和的划分数，则q(n,m)为（B ）

$q(n,m)=\begin{cases} 1，\quad(n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-2)+q(n-m,m),\quad (n>m>1) \end{cases}$

$q(n,m)=\begin{cases} 1，\quad(n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m),\quad (n>m>1) \end{cases}$

$q(n,m)=\begin{cases} 1，\quad(n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m-1),\quad (n>m>1) \end{cases}$

$q(n,m)=\begin{cases} 0,\quad (n>1 \&\&\ m =1 ) \\ 1，\quad (n=1||m=1) \\ q(n,n)，\quad (n<m) \\ 1+q(n,n-1) , \quad (n=m)\\ q(n,m-1)+q(n-m,m-1),\quad (n>m>1) \end{cases}$

n==m时，q(n,m)= 划分为m个数的种类 + 划分为<m个数的种类 =1 + q(n,m-1) =1 + q(n,n-1);

n>m时，q(n,m)= 划分为m个数的种类 + 划分为<m个数的种类

划分为<m个数的种类 = q(n,m-1)
n划分为m个数的种类 :这m个数，每个数先分配一个1个资源，剩下n-m个资源，然后随意分给这m个数。为q(n-m,m)

所以q(n,m)= q(n,m-1) + q(n-m,m);

26、一个有偏的硬币，抛了100次，出现1次人头，99次字。问用最大似然估计（MLE）和最小均方误差（LMSE）估计出现人头的概率哪个大？（ B ）

A、MLE = MSE
B、MLE > MSE
C、MLE < MSE

前提：一般假设其满足正态分布函数的特性的情况下，最大似然估计与最小二乘估计是等价的。

27、下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是==（ A ）==

A、链表和哈希表
B、数组和链表
C、哈希表和队列
D、堆栈和双向队列

链表删除和插入操作时间复杂度为O(1), 数组插入和删除时间复杂度为O(n)。哈希的插入很快，接近O(1)

数组的插入和删除都很慢，从中间插入一位，之后的都要往后移，删除同理

28、以下开源软件中经常被用作消息队列的是哪个（ A ）

A、Kafka
B、MongoDB
C、Hadoop
D、Spark

卡夫卡（Kafka）常作为消息队列，MongoDB是一种数据库，hadoop是分布式集群，Spark是基于hadoop的一种分布式计算框架。

29、对立的两方争夺一个价值为1的物品，双方可以采取的策略可以分为鸽子策略和鹰策略。如果双方都是鸽子策略，那么双方各有1/2的几率获得该物品；如果双方均为鹰策略，那么双方各有1/2的概率取胜，胜方获得价值为1的物品，付出价值为1的代价，负方付出价值为1的代价；如果一方为鸽子策略，一方为鹰策略，那么鹰策略获得价值为1的物品。在争夺的结果出来之前，没人知道对方是鸽子策略还是鹰策略。当选择鸽子策略的人的比例是某一个值时，选择鸽子策略和选择鹰策略的预期收益是相同的。那么该值是 ( C )

A、0.2
B、0.4
C、0.5
D、0.7
E、0.8

选鸽概率设为P，鹰为1-P。

当选择鸽时，对手是鸽的概率为P，此时赢的概率为1/2，获得价值为1，输的概率为1/2，失去价值为0，则预期收益为P * P * (1/2 * 1 + 1/2 * 0)；对手为鹰的概率为1-P，此时只有一个结果，预期收益为0。

当选择鹰时，对手为鸽的概率为P，此时只有一个结果，鹰获得价值为1，则预期收益为（1-P）* P * 1；对手为鹰的概率为1-P，此时赢的概率为1/2，获得价值为0，输的概率为1/2，失去价值为1，则预期收益为（1-P）* (1-P) ( 1/2 * 0 + 1/2 *(-1) )。

所以得到等式P * P * (1/2 * 1 + 1/2 * 0)=（1-P）* P * 1 +（1-P）* (1-P ) ( 1/2 * 0 + 1/2 * (-1) ) 解得 P=1/2

30、N-gram是一种简单有效的统计语言模型，通常n采用1-3之间的值，它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下：
D1： John read Moby Dick
D2： Mary read a different book,
D3： She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是（ B ）

A、1
B、0.06
C、0.09
D、0.0008

unigram,bigram,trigram,是自然语言处理（NLP）中的问题。父词条：n-gram.

unigram: 单个word

bigram: 双word

trigram:3 word

2元组s₁s₂…s_n在训练语料库中出现的次数

2-gram公式，P(s₁,s₂,s₃…) = P(s₁) * P(s₂|s₁) * P(s₃|s₂)…p(s_n|s_n-1)

P（john|前面） = 1/3

P（read | John） = 1

P(a|read) = 2/3

P(book|a) = 1/2 ，在语料库中a出现了2次，出现 <a, different > <a, book>各占1/2，所以<a,book>=1/2

P( 最后|book) = 1/2, book出现两次（D2，D3），其中一次是在句子结尾处（D2）

31、现在有一个tcp服务端监听了80端口，问最多同时能建立多少连接（ D ）

A、1023
B、65534
C、64511
D、非常多基本和内存大小相关

32、基于统计的分词方法为（ D ）

A、正向最大匹配法
B、逆向最大匹配法
C、最少切分
D、条件随机场

目前的分词方法归纳起来有3 类:
**第一类是基于语法和规则的分词法。**其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。
第二类是机械式分词法（即基于词典）。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配, 如果词典中找到某个字符串, 则匹配成功, 可以切分, 否则不予切分。基于词典的机械分词法, 实现简单, 实用性强, 但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计, 用一个含有70 000 个词的词典去切分含有15 000 个词的语料库, 仍然有30% 以上的词条没有被分出来, 也就是说有4500 个词没有在词典中登录。
**第三类是基于统计的方法。**基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。

最大匹配是指以词典为依据，取词典中最长单词长度作为第一个次取字数量的长度，在词典中进行扫描，这是基于词典分词的方法
1.正向最大匹配法 （由左到右的方向）
2.逆向最大匹配法 （由右到左的方向）
3.最少切分法：使每一句中切出的词数最小，这也是基于词典分词的方法
条件随机场（CRF）是一个基于统计的序列标记和分割的方法，属于基于统计的分词方法范畴。它定义了整个标签序列的联合概率，各状态是非独立的，彼此之间可以交互，因此可以更好地模拟现实世界的数据．

条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，基于统计学，可以作为一种分词方法

33、通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。显然，摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布，那么能否将它转换成(0,1)区间上的均匀分布__（ A ）

A、忽略测量和计算误差，可以转换为(0,1)区间上的均匀分布
B、无法转换为(0,1)区间上的均匀分布
C、信息不足，无法判断
D、借助伪随机数生成算法可以转换为(0,1)区间上的均匀分布
E、仅仅靠伪随机数生成算法，就可以生成(0,1)区间上的均匀分布
F、以上说法都不对

任何分布都能化为[0,1]均匀分布

https://blog.csdn.net/weixin_37895339/article/details/80380346

34、下列时间序列模型中，哪一个模型可以较好地拟合波动性的分析和预测（ D ）

A、AR模型
B、MA模型
C、ARMA模型
D、GARCH模型

《时间序列分析》

AR模型：自回归模型，是一种线性模型

MA模型：移动平均法模型，其中使用趋势移动平均法建立直线趋势的预测模型

ARMA模型：自回归滑动平均模型，拟合较高阶模型

GARCH模型：广义回归模型，对误差的方差建模，适用于波动性的分析和预测

35、这是第25道选择题，也是最后一道选择题。请估算一下，包括本题在内，这25道选择题题干及选项总共大约有多少个字符？（ C ）

A、500

B、1000

C、2000

D、4000

每一题平均80个字符（一个汉字算一个字符），25*80 = 2000

36、一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法表达式；现在有 6 对()，它们可以组成的合法表达式的个数为____ （ D ）

A、15

B、30

C、64

D、132

E、256

F、360

https://www.zhihu.com/question/25072237/answer/30111179

卡特兰数列，C(12,6)-C(12,5)=132

我们可以把左括号看做1，右括号看做0，这些括号的组合就是01的排列

这里需要满足从第一个数开始的任意连续子序列中，0的个数不多于1的个数，也就是右括号的个数不多于左括号的个数。

假设我们不考虑这个限制条件，那么全部的01排列共有C（2n,n）种，也就是一半0一半1的情况

现在我们想办法把其中不符合要求的数量去掉

在任何不符合条件的序列中，找出使得0的个数超过1的个数的第一个0的位置，然后在导致并包括这个0的部分序列中，以1代替所有的0并以0代表所有的1。结果总的序列变成一个有(n+1)个1和(n-1)个0的序列。而且这个过程是可逆的，也就是说任何一个有(n+1)个1和(n-1)个0构成的序列都能反推出一个不符合条件的序列，所以不符合条件的序列个数为C（2n,n-1）

所以合法的排列数有C（2n,n）-C（2n,n-1）= C(12,6)-C(12,5)=132

37、某公司有这么一个规定：只要有一个员工过生日，当天所有员工全部放假一天。但在其余时候，所有员工都没有假期，必须正常上班。假设一年有365天，每个员工的生日都概率均等地分布在这365天里。那么，这个公司需要雇用多少员工，才能让公司一年内所有员工的总工作时间期望值最大？（ D ）

A、1

B、122

C、183

D、365

员工上班的概率就是员工中没有一个人过生日的概率

一个人，对于任意一天，过生日的概率是 1 / 365, 不过生日的概率是 364 / 365
n个人，对于任意一天，没任何人过生日的概率是(364 / 365)ⁿ
n个人，对于任意一天，有人过生日的概率是 1 - (364 / 365)ⁿ
那么365天里有人过生日的期望天数是 365 [1 - (364 / 365)ⁿ] 天，
则n个人，365天，每个人工作的期望天数是365 - 365 [1 - (364 / 365)ⁿ ] = 365(364 / 365)ⁿ
从而所有人的期望工作天数的和为：n * 365(364 / 365)ⁿ，求导数，导数不小于0，递增。

二、多选

1、某电商推出一款新的产品，希望这个产品能大卖，让你给这个主题取个名字，如果你是数据分析师，以下哪些指标可以用来判断。（ A B C）

A、成交总量：代表产品销售的收入
B、独立用户数：代表购买产品的用户，说明产品的覆盖面
C、评价数（好评数）：反馈用户对产品口碑
D、购买时间：代表产品的销售与时间的相关性

本题目的关键点在于【产品大卖】，所以需要找出相关的指标。

商品大卖无非包含：潜在市场、意向用户、销售收入、利润等。

简单说，衡量商品是不是大卖的指标都是【分好坏】的指标。

像购买时间，并没有好坏之分，只是周期变动的一般趋势，衡量不出是不是大卖。

2、关于相关系数,下列描述中正确的有:（A C E ）

A、相关系数为0.8时,说明两个变量之间呈正相关关系
B、相关系数等于1相较于相关系数等于-1,前者的相关性更强
C、相关性等于1相较于相关系数等于0,前者的相关性更强
D、Pearson相关系数衡量了两个定序变量之间的相关程度
E、Spearman相关系数可以衡量两个定序变量之间的相关程度
F、相关系数为0.2相较于-0.8,前者的相关性更强

Pearson（皮尔孙相关系数）相关评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时，这两个变量具有线性关系。

Spearman（斯皮尔曼）相关评估两个连续或顺序变量间单调关系。在单调关系中，变量倾向于同时变化，但不一定以恒定的速率变化。Spearman相关系数基于每个变量的秩值（而非原始数据）。

3、下列有关k-mean算法说法正确的是 ( AD )

A、不能自动识别类的个数，随机挑选初始点为中心点计算
B、数据数量不多时，输入的数据的顺序不同会导致结果不同
C、不能自动识别类的个数，不是随机挑选初始点为中心点计算
D、初始聚类中心的选择对聚类结果的影响很大

Kmeans优化目标函数的过程中，两步均是遍历所有的点，累加损失。因此与数据的输入顺序无关。

4、下列哪些方法可以用来对高维数据进行降维: （A B C D E F ）

A、LASSO
B、主成分分析法
C、聚类分析
D、小波分析法
E、线性判别法
F、拉普拉斯特征映射

lasso（回归模型）通过参数缩减达到降维的目的

小波分析的实质就是将原始信号表示为一组小波基的线性组合。我们可以通过忽略其中不重要的部分来达到降维的目的。

线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维（LDA是给定类别标签）

拉普拉斯特征映射（Laplacian Eigenmaps）是一种不太常见的降维算法，它看问题的角度和常见的降维算法不太相同，是从局部的角度去构建数据之间的关系。，拉普拉斯特征映射是一种基于图的降维算法，它希望相互间有关系的点（在图中相连的点）在降维后的空间中尽可能的靠近，从而在降维后仍能保持原有的数据结构。

局部线性嵌入(Locally Linear Embedding，以下简称LLE)也是非常重要的降维方法。和传统的PCA，LDA等关注样本方差的降维方法相比，LLE关注于降维时保持样本局部的线性特征，由于LLE在降维时保持了样本的局部特征，它广泛的用于图像图像识别，高维数据可视化等领域。

5、excel工作簿a中有两列id、age，工作簿b中有一列id。需要找到工作薄b中id对应的age,可用的函数包括

（ AB）

A、index+match
B、vlookup
C、hlookup
D、find
E、if
F、like

在Excel中match函数可以返回指定内容所在的位置，而index又可以根据指定位置查询到位置所对应的数据，各取其优点，我们可以返回指定位置相关联的数据。

如果查找范围的数据是纵向的,即,A列是姓名,B列是成绩,你要找姓名对应的成绩就用VLOOKUP V代表垂直

如果查找范围的数据是横向的,即,第一行是姓名,第二行是成绩,你要找姓名对应的成绩就用HLOOKUP H代表水平

6、某服务请求经负载均衡设备分配到集群A、B、C、D进行处理响应的概率分别是10%、20%、30%和40%。已知测试集群所得的稳定性指标分别是90%、95%、99%和99.9%。现在该服务器请求处理失败，且已排除稳定性以外的问题，那么最有可能在处理该服务请求的集群是________（ A B ）

A、A
B、B
C、C
D、D

令L代表服务器请求处理失败，A,B,C,D分别代表对应的集群处理响应。

则有P(A)=10%，P(B)=20%，P©=30%，P(D)=40%

P(L|A)=10%，P(L|B)=5%，P(L|C)=1%，P(L|D)=0.1%

题目要求P（X|L），X可取A，B，C，D，求其中的最大值。

根据贝叶斯概率公式

P(A|L)P(L)=P(L|A)P(A)=0.01

P(B|L)P(L)=P(L|B)P(B)=0.01

P(C|L)P(L)=P(L|C)P©=0.003

P(D|L)P(L)=P(L|D)P(D)=0.0004

其中，P(L)虽然未知，但不用计算，即可比较大小，得P(A|L)=P(B|L)>P(C|L)>P(D|L)

所以选A,B

7、关于线性回归的描述,以下正确的有: （ B C E ）

A、基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B、基本假设包括随机干扰项是均值为0的同方差正态分布
C、在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D、在违背基本假设时,模型不再可以估计
E、可以用DW检验残差是否存在序列相关性
F、多重共线性会使得参数估计值方差减小

一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量；
2、对于解释变量的所有观测值，随机误差项有相同的方差；
3、随机误差项彼此不相关；
4、解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立；
5、解释变量之间不存在精确的（完全的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；
6、**随机误差项服从正态分布

违背基本假设的计量经济学模型还是可以估计的，只是不能使用普通最小二乘法进行估计。
当存在异方差时，普通最小二乘法估计存在以下问题：参数估计值虽然是无偏的，但不是最小方差线性无偏估计。
**
杜宾-瓦特森（DW）检验，计量经济，统计分析中常用的一种检验序列一阶 自相关 最常用的方法。

所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响

（1）完全共线性下参数估计量不存在

（2）近似共线性下OLS估计量非有效

多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)

（3）参数估计量经济含义不合理

（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型之外

（5）模型的预测功能失效。变大的方差容易使区间预测的“区间”变大，使预测失去意义。

8、现在有M个桶，每桶都有N个乒乓球，乒乓球的颜色有K种，并且假设第i个桶第j种颜色的球个数为C_ij，比例为

R_ij=C_ij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的? （ B C F ）

A、∑(N/K-C_ij) (N/K-C_ij) 越小越纯
B、-∑C_ij * LOG(R_ij) 越小越纯
C、∑(1-R_ij * R_ij) 越小越纯
D、∑(1-R_ij) * (1-R_ij) 越小越纯
E、∑(1-R_ij)² 越小越纯
F、-∑R_ij * LOG(R_ij) 越小越纯