选择题题库1

1.

对于以下代码,char* p=new char[100]; 

正确的是(p在栈上,new出来的在堆上)。

p是一个指针,所以存储在栈上,p中存储的是新建的动态内存的地址,新建的动态内存在堆上。
 
2.一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?
 
3.字符串"//^▽^//\n"的长度是 (8)。
//这里指的是两个字符,\n是转义字符,一个字符
 
4.WHERE在数据分组前进行过滤,HAVING在数据分组后进行过滤。当where和having都可以时, 显然where查询效率更高。
 
5.下列哪个不属于CRF模型对于HMM和MEMM模型的优势 (B)
A.特征灵活 B.速度快 C.可容纳较多上下文信息 D.全局最优

1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较
缺点:训练代价大、复杂度高。

 6.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是 (C)
A.2x+y=4 B.x+2y=5 C.x+2y=3 D.以上都不对

求斜率加过中点

7.下面关于ID3算法中说法错误的是(D)

A.ID3算法要求特征必须离散化
B.信息增益可以用熵,而不是GINI系数来计算
C.选取信息增益最大的特征,作为树的根节点
D.ID3算法是一个二叉树模型

ID3 算法生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少个不同的取值。 

ID3算法(Iterative Dichotomiser 3 迭代二叉树3代)是一个由Ross Quinlan发明的用于决策树算法。可以归纳为以下几点:
  1. 使用所有没有使用的属性并计算与之相关的样本熵值
  2. 选取其中熵值最小的属性
  3. 生成包含该属性的节点
ID3算法对数据的要求:

    1) 所有属性必须为离散量;

    2) 所有的训练例的所有属性必须有一个明确的值;

    3) 相同的因素必须得到相同的结论且训练例必须唯一。

 

8.SPSS中,数据整理的功能主要集中在(数据和转换 )等菜单中。

9..excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括(index+match 和 vlookup)

INDEX: 函数返回表格或区域中的值或值的引用 .
 
MATCH: 在范围单元格中搜索特定的项 , 然后返回该项在此区域中的相对位置 .
 
VLOOKUP&HLOOKUP: 

如果查找范围的数据是纵向的,即,A列是姓名,B列是成绩,你要找姓名对应的成绩就用VLOOKUP  V代表垂直

如果查找范围的数据是横向的,即,第一行是姓名,第二行是成绩,你要找姓名对应的成绩就用HLOOKUP  H代表水平

 
FIND: 返回一个字符串在另一个字符串中出现的起始位置 ( 区分大小写 ).
 
IF: 可以对值和期待值进行逻辑比较 .
 
LIKE: 可用Like运算符自定义字符比较函数之类的, 应该是VBA的函数.
 
10. 随机无放回抽样跟随机有放回抽样比较, (有)放回抽样方差大。

集合{1,2},抽样2次,有放回抽样结果为{1,1}{1,2}{2,1}{2,2},概率均为1/4.无放回抽样结果为{1,2},{2,1},

是指一个集合{a,b}中的方差,还是不同集合结果的方差?后者在例子中,无放回抽样方差是0。

12.常采用特征选择方法。常见的六种特征选择方法:

  1. DF(Document Frequency) 文档频率
    DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性

  2. MI(Mutual Information) 互信息法
    互信息法用于衡量特征词与文档类别直接的信息量。
    如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。
    相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

  3. (Information Gain) 信息增益法
    通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

  4. CHI(Chi-square) 卡方检验法
    利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
    如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

  5. WLLR(Weighted Log Likelihood Ration)加权对数似然

  6. WFO(Weighted Frequency and Odds)加权频率和可能性

13.隐马尔可夫模型三个基本问题以及相应的算法说法正确的是(A/B/C)

A.评估—前向后向算法
B.解码—维特比算法
C.学习—Baum-Welch算法
D.学习—前向后向算法

14.下列方法中,可以用于特征降维的方法包括(都可以)

主成分分析PCA
线性判别分析LDA
深度学习SparseAutoEncoder(稀疏自编码)
矩阵奇异值分解SVD
AutoEncoder的结构与神经网络的隐含层相同,由输入L1,输出 L2组成,中间则是权重连接。Autoencoder通过L2得到输入的重构L3,最小化L3与L1的差别 进行训练得到权重。在这样的权重参数下,得到的L2可以尽可能的保存L1的信息。
Autoencoder的输出L2的维度由输出的神经元个数决定。当输出维度大于L1时,则需要在训练目标函数中加入sparse 惩罚项,避免L2直接复制L1(权重全为1)。所以称为sparseAutoencoder( Andrew Ng提出的)。
结论:当隐藏层的神经元数目比输入的少的时候,是对高维输入数据进行压缩表示,起到降维的作用。

15.下列哪些方法可以用来对高维数据进行降维 (都可以)

LASSO
主成分分析法
聚类分析
小波分析法
线性判别法
拉普拉斯特征映射



  






 
 

转载于:https://www.cnblogs.com/mindyhuang/p/9782435.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值