网易2020校招数据分析方向正式批笔试题
更多数据分析试卷请点击数据分析真题
考点涉及:数据结构(二叉树、链表、树的遍历等)、斐波那契数列、PCA、概率论、高数、SQL、业务分析能力、编程
1. 以下关于主成分分析说法错误的是 C
A.PCA可以用来降维处理
B.PCA可以通过SVD来实现
C.PCA实现线性组合最小化样本方差
D.PCA可以通过特征值分解来实现
知识点扩展:PCA原理解释
PCA实现线性组合最大化样本方差
2. 2个盒子被小牛分别放入中有两个大小相同的球,这两个球只可能是红和蓝两种颜色,并且一个球是红的还是蓝的是等可能的。小牛让小客来猜盒子里球的颜色分别是什么样颜色。在小客猜的过程中,小牛告诉小客其中一个是盒子里面是红色的小球,那么另一个盒子里球还是红色的概率是多少( 1/3 )
解析:一共有4种可能:红红、红蓝、蓝蓝、蓝红
已知其中一个盒子是红色的,则另一个盒子里球还是红色的概率是1/3
4. 数据结构中,沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问。对二叉树的结点从1开始进行连续编号,要求每个结点的编号大于其左、右孩子的编号,同一结点的左右孩子中,其左孩子的编号小于其右孩子的编号,可采用( 后序 )次序的遍历实现编号。
解析:满足后序遍历(左右中)
5. 现在假设F是一个森林,B是由F转换得到的二叉树,F中有n个非终端结点,B中右指针域为空的结点有( n+1 )个?
6. 现在假设对N个元素的链表做顺序查找时,若查找每个元素的概率相同,则平均查找长度为( (N+1)/2 )?
解析:总比较次数:1+2+3+……+N = N(N+1)/2
则平均比较次数:(N+1)/2
7. 完全二叉树是指深度为K的,有n个结点的二叉树,当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一 一对应将一棵有50个结点的完全二叉树按节点编号,如根节点的编号为1,那么编号为25的结点是( B )?
A.无左、右孩子
B.有左孩子,无右孩子
C.有右孩子,无左孩子
D.有左、右孩子
解析:完全二叉树,结点k的左右孩子结点为2k, 2k+1
满二叉树的每层结点个数为:1,2,4……, 2 i 2^i 2i其中,i=0,1,2,……,K
8. 假设有选课表course_relation(student_id, course_id),其中student_id表示学号,course_id表示课程编号,如果小易现在想获取每个学生所选课程的个数信息,请问如下的sql语句正确的是( )
select student_id,count(course_id)
from course_relation
group by student_id;
9. 城市A当前剩余的车牌号为70000-99999之间,假设不能有两个相同的数字,那么剩余车牌号有( )个
解析:第一个数字有三种选择:7,8,9
所以, C 3 1 C 9 1 C 8 1 C 7 1 C 6 1 = 9072 C_3^1C_9^1C_8^1C_7^1C_6^1=9072 C31C91C81C71C61=9072
10. 15个阶梯,你一次可以上一阶或两阶,走上去,共有多少种走法? 987
解析:该题考查斐波那契数列(Fibonacci sequence),又称黄金分割数列
F(n) = F(n-1) + F(n-2)
可以记下常用的序列:1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711……
11. 用户分析是电商数据分析中重要的模块,在对用户特征深度理解和用户需求充分挖掘基础上,进行全生命周期的运营管理(拉新—>活跃—>留存—>价值提升—>忠诚),请尝试回答以下3个问题:
① 现在数据库中有一张用户交易表order,其中有userid(用户ID)、orderid(订单ID)、amount(订单金额)、paytime(支付时间),请写出对应的SQL语句,查出每个月的新客数(新客指在严选首次支付的用户),当月有复购的新客数,新客当月复购率(公式=当月有复购的新客数/月总新客数)。
一、查找每个月的新客数
注意“SELECT userid, min( paytime ) mt , 年月 FROM ordertab GROUP BY userid”的查询结果是错误的,下图是错误运行结果
SELECT
年月,