阿里巴巴2016 实习生招聘练习题（二）

最新推荐文章于 2022-12-03 17:22:35 发布

明致成

最新推荐文章于 2022-12-03 17:22:35 发布

阅读量743

点赞数

分类专栏：各大公司面试题文章标签：阿里巴巴

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/LiyangBai/article/details/75095421

版权

各大公司面试题专栏收录该内容

28 篇文章 0 订阅

订阅专栏

1、阿里巴巴国际站的股票代码是1688，这个数字具有这样的特性，首先是个首位为1的4位数，其次恰巧有且仅有1个数字出现了两次。类似的数字还有：1861,1668等。这样的数字一共有()个

A144

B180

C216

D270

E288

F432

答案：F

分两种情况讨论：

（1）若这个四位数的重复数字为1，那么首先从三个空位中选出一个给1，第二步从剩下9个可选数字中选出2个有序的排列到剩下的两个空位中去，那么有C(1，3)*A(2，9)=3*(9!/(9-2)!)=3*9*8=216种可能；

（2）若这个四位数的重复数字不为1，那么首先从9个可选数字中选出一个作为重复数字(C(1,9))，并放到三个空位中的两个（这两个数字相同，故只涉及组合）(C(2, 3))，然后从剩下8个数字中选出一个（它的位置在重复数字确定后就自然固定了，不可选）即可，故有C(1,9)*C(2, 3)*C(1, 8)=216种可能。

总共：216+216=432

2、由权值分别为1、12、13、4、8的叶子节点生成一颗哈夫曼树，它的带权路径长度为()

A12

B68

C43

E25

F81

答案：F

带权路径长度为所有叶子节点的权值*其路径长度：（1+4）*3+8*2+（12+13）*2=81

3、n个数值选出最大m个数（3<m<n）的最小算法复杂度是

AO(n)

BO(nlogn)

CO(logn)

DO(mlogn)

EO(nlogm)

FO(mn)

答案：A

1.最简单的方法：将n个数排序，排序后的前k个数就是最大的k个数，这种算法的复杂度是O（nlogn）

2.O（n）的方法：利用快排的patition思想，基于数组的第k个数来调整，将比第k个数小的都位于数组的左边，比第k个数大的都调整到数组的右边，这样调整后，位于数组右边的k个数最大的k个数(这k个数不一定是排好序的）

3.O(nlogk）的方法：先创建一个大小为k的最小堆，接下来我们每次从输入的n个整数中读入一个数，如果这个数比最小堆的堆顶元素还要大，那么替换这个最小堆的堆顶并调整。

4.下面哪一个不是动态链接库的优点？

A共享

B装载速度快

C开发模式好

D减少页面交换

答案：B

动态链接的优点： 1）不占用源程序代码段，节省空间。 2）使程序更容易更新。 3）减少物理页面的切入。4）增加程序的可扩展性

动态链接的缺点： 1）性能损失 2）兼容性问题

静态链接的优点： 1）代码装载速度快。 2）不存在版本兼容的问题

静态链接的缺点： 1）体积问题 2）可扩展性问题

5、下列不是进程间的通信方式的是（）

A管道

B回调

C共享内存

D消息队列

Esocket

F信号量

答案：B

进程间共享通信的方式主要有：管道、信号量、消息队列、共享内存、信号、套接口

# 管道( pipe )：管道是一种半双工的通信方式，数据只能单向流动，而且只能在具有亲缘关系的进程间使用。进程的亲缘关系通常是指父子进程关系。

# 信号量( semophore ) ： 信号量是一个计数器，可以用来控制多个进程对共享资源的访问。它常作为一种锁机制，防止某进程正在访问共享资源时，其他进程也访问该资源。因此，主要作为进程间以及同一进程内不同线程之间的同步手段。
# 消息队列( message queue ) ： 消息队列是由消息的链表，存放在内核中并由消息队列标识符标识。消息队列克服了信号传递信息少、管道只能承载无格式字节流以及缓冲区大小受限等缺点。
# 共享内存( shared memory ) ：共享内存就是映射一段能被其他进程所访问的内存，这段共享内存由一个进程创建，但多个进程都可以访问。共享内存是最快的 IPC 方式，它是针对其他进程间通信方式运行效率低而专门设计的。它往往与其他通信机制，如信号两，配合使用，来实现进程间的同步和通信。

# 套接字( socket ) ： 套解口也是一种进程间通信机制，与其他通信机制不同的是，它可用于不同及其间的进程通信。

# 回调： 是一种编程机制。

6、已知IBM的PowerPC是big-endian字节序列而Intel的X86是little-endian字节序，如果在地址啊存储的整形值时0x04030201，那么地址为a+3的字节内存储的值在PowerPC和Intel X86结构下的值分别是？

A1 4

B1 3

C4 1

D3 1

E4 4

F1 1

答案：A

大端从大地址开始存储，小端相反，两者都是从数据低位开始存起；

假设从上至下地址递增，则
PowerPC（大）：                    Intel X86（小）：
04                                            01                    低
03                                            02                      |
02                                            03                      | 
01                                            04                     高

a+3指向最大的地址，所以分别为1 4

7、在Logistic Regression中,如果同时加入L1和L2范数,会产生什么效果()

A可以做特征选择,并在一定程度上防止过拟合

B能解决维度灾难问题

C能加快计算速度

D可以获得更准确的结果

答案：A

Ｌ１范数具有系数解的特性，但是要注意的是，Ｌ１没有选到的特征不代表不重要，原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要，再通过交叉验证。
为什么L1，L2范数可以防止过拟合呢
在代价函数后面加上正则项，Ｌ１即是Ｌｏｓｓｏ回归，Ｌ２是岭回归
但是它为什么能防止过拟合呢？
奥卡姆剃刀原理：能很好的拟合数据且模型简单
模型参数在更新时，正则项可使参数的绝对值趋于０，使得部分参数为０，降低了模型的复杂度（模型的复杂度由参数决定），从而防止了过拟合。提高模型的泛化能力

8、下面关于B-和B+树的叙述中，不正确的是

AB-树和B+树都是平衡的多叉树

BB-树和B+树都可用于文件的索引结构

CB-树和B+树都能有效地支持顺序检索

DB-树和B+树都能有效地支持随机检索

答案：C

9、在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()

A将负样本重复10次,生成10w样本量,打乱顺序参与分类

B直接进行分类,可以最大限度利用数据

C从10w正样本中随机抽取1w参与分类

D将负样本每个权重设置为10,正样本权重为1,参与训练过程

答案：ACD

10、以下几种模型方法属于判别式模型的有

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

A1,4

B3,4

C2,3

D1,2

11、B-树的插入算法中,通过结点的向上"分裂",代替了专门的平衡调整()

A对

B错

12、对二叉树的结点从1开始进行连续编号,要求每个结点的编号大于其左、右孩子的编号,在同一结点的左、右孩子中,其左孩子的编号小于其右孩子的编号,可采用()次序的遍历实现编号

A前序

B中序

C后序

D从根开始按层次遍历

答案：C

13、堆是满二叉树()

A对

B错

答案：B

堆是完全二叉树，但不是满二叉树。

14、下面有关序列模式挖掘算法的描述，错误的是？

AAprioriAll算法和GSP算法都属于Apriori类算法，都要产生大量的候选序列

BFreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描原数据库

C在时空的执行效率上，FreeSpan比PrefixSpan更优

D和AprioriAll相比，GSP的执行效率比较高

15、如下表是用户是否使用某产品的调查结果（）

UID年龄地区学历收入用户是否使用调查产品

1低北方博士低是

2高北方本科中否

3低南方本科高否

4高北方研究生中是

请计算年龄，地区，学历，收入中对用户是否使用调查产品信息增益最大的属性（Log23≈0.63）

A年龄

B地区

C学历

D收入

16、深度学习是当前很热门的机器学习算法。在深度学习中，涉及到大量矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC，假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q，以下计算顺序效率最高的是：（）

AA(BC)

B(AB)C

C(AC)B

D所有效率都相同

17、二叉树是度为2的有序树()

A对

B错

答案：B

二叉树说的是孩子节点的个数是2，如左右节点

19、类域界面方程法中，不能求线性不可分情况下分类问题近似或精确解的方法是？

A伪逆法

B感知器算法

C基于二次准则的H-K算法

D势函数法

20、下面有关分类算法的准确率，召回率，F1值的描述，错误的是？

A准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率

B召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率

C正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高

D为了解决准确率和召回率冲突问题，引入了F1分数

21、以下哪个是常见的时间序列算法模型

ARSI

BMACD

CARMA

DKDJ

22、在图G的最小生成树G1中,可能会有某条边的权值超过未选边的权值()

A对

B错

答案：B

23、下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测

AAR模型

BMA模型

CARMA模型

DGARCH模型

24、二叉树的第I层上含有的结点数最多为()

A2I

B2I-1-1

C2I-1

D2I-1

答案：C

25、关于支持向量机SVM,下列说法错误的是（）

AL2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力

BHinge 损失函数，作用是最小化经验分类错误

C分类间隔为1/||w||，||w||代表向量的模

D当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

明致成

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
阿里巴巴2016 实习生招聘练习题（二）

1、阿里巴巴国际站的股票代码是1688，这个数字具有这样的特性，首先是个首位为1的4位数，其次恰巧有且仅有1个数字出现了两次。类似的数字还有：1861,1668等。这样的数字一共有()个A144B180C216D270E288F432答案：F分两种情况讨论：（1）若这个四位数的重复数字为1，那么首先从三个空位中选出一个给1，第二步从剩下9个可选数字中选
复制链接

扫一扫