机器学习专项练习题

  1. 之所以说监督学习和无监督学习之间并不存在一条严格的界限,是因为很难客观地区分监督者给定的一个值是特征(feature)还是目标(target)。(正确
    解答:

  2. 当深度学习网络的最后一层是一个softmax分类器时,我们可以把网络的前面部分看成是一种表示学习(Representation Learning)的计算单元。(正确
    解答:
    表示学习指学习对观测样本 X X X有效的表示。比如CNN参数的有监督训练是一种有监督的表示学习形式;对自动编码器和限制玻尔兹曼机参数的无监督预训练是一种无监督的表示学习形式;对DBN参数-先进行无监督预训练,再进行有监督fine-tuning-是一种半监督的共享表示学习形式。它避免了手动提取特征的麻烦,允许计算机学习使用特征的同时,也学习如何提取特征:学习如何学习。

  3. 一个聚类算法将样本分成k个不同的聚类(cluster),从另一个角度说,这个聚类算法其实是为样本中的每一个实例提供了一种k维的one-hot编码方式。(正确
    解答:

  4. 随机梯度下降(Stochastic Gradient Descent)算法是用小规模的样本近似估计梯度的方法,适合在大规模数据上训练深度神经网络,但在逻辑回归、SVM等算法中的作用很有限。(错误
    解答:
    梯度下降法 用于是用于求解机器学习算法参数的优化算法。优点是效率高,只需要求一阶导数,计算代价小,可以在大规模数据上应用。缺点是求解的是局部最优解。
    批量梯度下降法BGD 针对的是整个数据集,通过对所有样本的计算来求解梯度方向。优点是全局最优解,易于并行实现。缺点是当数据集很大时,计算开销大。
    小批量梯度下降法MBGD 是把数据分成若干个批,按批来求解本批的梯度。优点降低了计算开销,减小了随机性。
    随机梯度下降法 是每个数据都计算一下梯度,然后求梯度的更新。优点计算速度快。缺点收敛性不好。
    逻辑回归、SVM等算法都可以使用随机梯度下降

  5. Apriori算法在机器学习和数据挖掘中被广泛使用,已知有1000名球迷看奥运会,分为AB两队,每队各500人,其中A队有500人看了乒乓球比赛,同时又有450人看了羽毛球比赛;B队有450人看了羽毛球比赛,如下表所示:
    在这里插入图片描述
    那么 乒乓球→羽毛球的支持度、置信度和提升度分别是( 0.45,0.9,1)
    解答:
    支持度: 表示项集 { X , Y } \{X,Y\} {X,Y}在总项集里出现的概率 S u p o r t ( X → Y ) = P ( X , Y ) P ( A L L ) = n u m ( X ∪ Y ) n u m ( A L L ) = 450 1000 = 0.45 Suport(X \to Y)=\frac{P(X,Y)}{P(ALL)}=\frac{num(X\cup Y)}{num(ALL)}=\frac{450}{1000}=0.45 Suport(XY)=P(ALL)P(X,Y)=num(ALL)num(XY)=1000450=0.45
    置信度: 表示在先决条件 X X X发生的条件下,由关联规则“ X → Y X\to Y XY”推出 Y Y Y的概率。即在含有 X X X的项集中含有 Y Y Y的概率。 C o n f i d e n c e ( X → Y ) = P ( Y ∣ X ) = P ( X , Y ) P ( X ) = n u m ( X , Y ) n u m ( X ) = 450 500 = 0.9 Confidence(X\to Y)=P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{num(X,Y)}{num(X)}=\frac{450}{500}=0.9 Confidence(XY)=P(YX)=P(X)P(X,Y)=num(X)num(X,Y)=500450=0.9
    提升度: 表示含有 X X X的条件下同时含有 Y Y Y的概率,与不含 X X X的条件下含有 Y Y Y的概率的比值。 L i f t ( X → Y ) = P ( X , Y ) P ( X ~ , Y ) = 450 450 = 1 Lift(X\to Y)=\frac{P(X,Y)}{P(\tilde{X},Y)}=\frac{450}{450}=1 Lift(XY)=P(X~,Y)P(X,Y)=450450=1

  6. 偏差-方差分解:
    泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的
    偏差: 刻画了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力,模型的预测准确度
    方差: 度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响,即模型性能的稳定性

  7. 有效解决过拟合的方法:
    Early stopping
    数据增强: 1)增加样本数量;2)增加噪声 输入噪声,等同于L2正则化。权值噪声,指在权值初始化的时候,用高斯分布。网络噪声,让训练向前传播的输出为随机,这使得在测试集上表现会更好。3)重采样;4)根据当前数据集估计数据分布参数,使用该分布产生更多数据等
    通过特征选择减少特征数量
    采用正则化方法(L1正则化/L2正则化) ,L1正则化能得到稀疏解,L2正则化约束了解空间。
    Dropout
    Batch Normalization
    结合多种模型: 1)bagging,采用多次对样本的采样,并行进行多个模型的训练,最终对分类结果进行投票获得最终结果。2)boosting,串行地进行采样的模型训练,即比如每次取上个模型的错分样本。
    交叉验证
    决策树剪枝
    选择合适的网络结构

  8. 有效解决欠拟合的方法:
    添加其他特征项 增加特征的维度,通过特征组合、泛化、相关性等得到新特征并进行训练。
    减少正则化参数
    增加模型复杂度
    添加多项式特征 将线性模型通过添加二次项或者三次项使线性模型泛化能力增强。

  9. 随机森林(RF)与梯度提升树(GBDT)区别:
    GBDT和RF的相同点:
    1.都是由多棵树组成
    2.最终的结果都是由多棵树一起决定
    GBDT和RF的不同点:
    1.组成随机森林的树可以是分类树,也可以是回归树;而GBDT只由回归树组成
    2.组成随机森林的树可以并行生成;而GBDT只能是串行生成
    3.对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来
    4.随机森林对异常值不敏感,GBDT对异常值非常敏感;
    5.随机森林对训练数据一视同仁,GBDT是基于权值的弱分类器的集成;
    6.随机森林是通过减少模型方差提高性能,GBDT是通过减少模型偏差提高性能;
    理论上树模型全部不需要归一化。因为树模型不是靠梯度下降法来训练的,只跟特征值的大小有关。理论上不改变特征值的顺序不影响结果。

  10. 随机森林和Adaboost的区别:
    和adaboost相比,随机森林对错误和离群点更鲁棒
    随机森林对每次划分所考虑的属性数很偏感
    Adaboost初始时每个训练元组被赋予相等的权重
    随机森林准确率依赖于个体分类器的实例和他们之间的依赖性

  11. 基于二次准则函数的H-K算法较之于感知器算法的优点是(BD)?
    A. 计算量小
    B. 可以判别问题是否线性可分
    C. 其解完全适用于非线性可分的情况
    D. 其解的适应性更好
    解答:
    感知机可以理解为最简单的神经网络,对权重的更新仅依靠阈值。
    HK算法(delta法则又叫增量法则, LMS法则,Adaline法则,Windrow-Hoff法则,或者这里的H-K(LSME法则))。思想很朴实,就是在最小均方误差准则下求得权矢量。他适用于线性可分和非线性可分的情况,对于线性可分的情况,给出最优权矢量,对于非线性可分的情况,能够判别出来,以退出迭代过程。

  12. DBSCAN是一个比较有代表性的基于密度聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。具体算法描述如下: (1)检测数据库中尚未检查过的对象p,如果p未被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇C,将其中的所有点加入候选集N; (2)对候选集N 中所有尚未被处理的对象q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N;如果q 未归入任何一个簇,则将q 加入C; (3)重复步骤2),继续检查N 中未处理的对象,当前候选集N为空; (4)重复步骤1)~3),直到所有对象都归入了某个簇或标记为噪声。

  13. Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方法。

  14. EM(Expectation-Maximum)算法也称期望最大化算法,是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步)。其基本思想是:首先根据己经给出的观测数据,估计出模型参数的值;然后再依据上一步估计出的参数值估计缺失数据的值,再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计,然后反复迭代,直至最后收敛,迭代结束。

  15. 假设我们想估计A和B这两个参数,在开始状态下二者都是未知的,但如果知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止,该算法是( C )的算法思想。
    A.极大似然法
    B.朴素贝叶斯分类器
    C.EM算法
    D.贝叶斯决策论
    解答:
    极大似然估计:就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

  16. 下列关于线性回归说法错误的是(D
    A.在现有模型上,加入新的变量,所得到的R^2的值总会增加
    B.线性回归的前提假设之一是残差必须服从独立正态分布
    C.残差的方差无偏估计是SSE/(n-p)
    D.自变量和残差不一定保持相互独立
    解答:
    简单线性回归的古典假设:
    1)样本是在总体之中随机抽取出来的。
    2)因变量在实直线上是连续的
    3)残差项是独立同分布的,也就是说,残差是独立的且服从高斯分布。
    4)残差项不依赖自变量的值,所以和自变量(预测变量)之间是相互独立的。

  17. 目标变量在训练集上的7个实际值为[1,1,1,1,0,0,0],目标变量的熵近似值是(log3/7=-0.847,log4/7=-0.560)(0.683
    解答:
    P ( X = x i ) = p i = n i N , i ∈ { 0 , 1 } P(X=x_i)=p_i=\frac{n_i}{N}, i \in \{0,1\} P(X=xi)=pi=Nni,i{0,1}
    H ( X ) = − ∑ i C p i l o g p i H(X)=-\sum_i^Cp_ilogp_i H(X)=iCpilogpi
    对于该题 H = − ( 3 7 l o g 3 / 7 + 4 7 l o g 4 / 7 ) = − ( − 0.847 − 0.560 ) = 0.683 H=-(\frac{3}{7}log3/7+\frac{4}{7}log4/7)=-(-0.847-0.560)=0.683 H=(73log3/7+74log4/7)=(0.8470.560)=0.683

  18. 现在假设负样本量:正样本量=20:1,下列哪些方法可以处理这种不平衡的情况?(ABC
    A.直接训练模型,预测的时候调节阈值
    B.复制正样本,以增加正样本数量
    C.随机降采样负样本
    D.训练过程中,增加负样本的权重

  19. 在某神经网络的隐层输出中,包含-1.5,那么该神经网络采用的激活函数不可能是(ABC
    A.sigmoid B.tanh C.relu

  20. 以下几种模型方法属于判别式模型的有(2,3
    1)混合高斯模型
    2)条件随机场模型
    3)区分度训练
    4)隐马尔科夫模型
    解答:
    高斯混合模型(变量分布模型) 就是用高斯概率密度函数(正态分布曲线)精确地量化事物,它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
    线性链条件随机场CRF(判别式模型),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
    CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
    CRF 的缺点:速度慢
    隐马尔可夫模型(生成式模型)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
    常见生成式模型:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等

  21. 以下方法属于集成方法的是(ABCD)
    A.bagging B.stacking C.blending D.boosting
    在这里插入图片描述

  22. 在()情况下,用分支定界法做特征选择计算量相对较少? (BD)
    A.选用的可分性判据J具有可加性
    B.选用的可分性判据J对特征数目单调不减
    C.样本较多
    D. C n d > > n C_n^d >>n Cnd>>n,(n为原始特征个数,d为要选出的特征个数)
    分支界定法围绕着一颗搜索树进行的,分支的过程就是不断给树增加子节点的过程。而定界就是在分支的过程中检查子问题的上下界,如果子问题不能产生一比当前最优解还要优的解,那么砍掉这一支。直到所有子问题都不能产生一个更优的解时,算法结束。

  23. 以下哪些算法不能用于路径规划 (D)
    A.A* B.Dijkstra C.动态规划 D.K-Mean
    解答:
    A[1](A-Star)算法*是一种静态路网中求解最短路最有效的方法。 公式表示为: f(n)=g(n)+h(n), 其中 f(n) 是从初始点经由节点n到目标点的估价函数, g(n) 是在状态空间中从初始节点到n节点的实际代价, h(n) 是从n到目标节点最佳路径的估计代价。 保证找到最短路径(最优解的)条件,关键在于估价函数h(n)的选取: 估价值h(n)<= n到目标节点的距离实际值,这种情况下,搜索的点数多,搜索范围大,效率低。但能得到最优解。 如果 估价值>实际值,搜索的点数少,搜索范围小,效率高,但不能保证得到最优解。
    Dijkstra算法 戴克斯特拉算法(英语:Dijkstra’s algorithm,又译迪杰斯特拉算法)由荷兰计算机科学家艾兹赫尔·戴克斯特拉在1956年提出。戴克斯特拉算法使用了广度优先搜索解决赋权有向图的单源最短路径问题。该算法存在很多变体;戴克斯特拉的原始版本找到两个顶点之间的最短路径,但是更常见的变体固定了一个顶点作为源节点然后找到该顶点到图中所有其它节点的最短路径,产生一个最短路径树。

  24. bootstrap数据是什么意思?
    有放回地从总共N个样本中抽样n个样本

  25. 一般情况下,KNN最近邻方法在( )情况下效果最好?
    样本较少但典型性好

  26. 下面哪些算法模型可以用来完成命名实体的任务(CDEF
    A.GBDT B.LDA C.HMM D.CRF E.LSTM F.seq2seq
    包括:
    (1) 基于规则的方法。根据语言学上预定义的规则。但是由于语言结构本身的不确定性,规则的制定上难度较大。
    (2) 基于统计学的方法。利用统计学找出文本中存在的规律。
    主要有隐马尔可夫(HMM)、条件随机场(CRF)模型和Viterbi算法、支持向量机(Support Vector Machine, SVM)。
    (3) 神经网络。
    LSTM+CRF模型,基于RNN的seq2seq模型

  27. 下面哪些是基于核的机器学习算法?(BCD)
    A.Expectation Maximization B.Radial Basis Function C.Linear Discrimimate Analysis D.Support Vector Machine
    解答:
    最大期望算法(Expectation Maximization,EM),EM算法是一种迭代优化策略,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法。
    径向基(Radial Basis Function),径向基函数核(Radial basis function kernel),或称为RBF核,是一种常用的核函数。它是支持向量机分类中最为常用的核函数。

  28. JC

  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
2020人工智能与机器学习创新峰会PPT汇总,24个专题共73份资料。供大家学习参考。 一、测试新趋势 业务数据监控从0-1脱敏 AI在游戏数值与平衡性分析中的应用 微众研发效能改进之数据度量体系 敏捷测试团队转型实践 二、大规模机器学习算法 快速深度学习训练优化算法 三、高效运维 构建全链路数据度量体系、实现DevOps数据驱动闭环 既快又好 DevOps为小红书全员质量保障赋能 浙江移动AIOpsDev运维转型实践-脱敏版 四、工业4.0 AI赋能医药工业发展案例 五、机器学习框架 Volcano加速AI云原生迁移之路 基于分布式机器学习的通信网络资源协同优化和分配 如何做智能边缘计算 六、计算机视觉 深度学习Depth预测--在2d-to-3d项目中的应用 PaddleOCR产业实践之路:如何打造8.6M超轻量模型,一条龙解决训练部署问题 视觉问答与对话系统的新技术进展 视觉技术赋能高效淘宝素材质量巡检 七、架构演进 边缘计算的缘起、价值和实践 AI人脸识别应用技术方案选型与架构落地 爱奇艺 K8S GPU 共享虚拟化实践和优化 菜鸟运力平台架构演进 八、流式计算 美团点评实时计算平台 小米实时计算平台构建 超大规模 Flink 调度优化实践 九、落地"大中台"战略 有赞数据中台降本治理 演进式的大规模业务中台体系落地实践 京东B2B中台化实践A2M 十、企业级大数据架构演进 基于阿里云数据湖分析服务DLA快速构建数据湖解决方案 Delta Lake在实时数仓中的应用实践 滴滴数据平台建设实践 美图PB级大数据基础架构升级之路 十一、区块链 新基建下可信区块链网络建设 基于区块链的药品溯源体系建设 区块链+电子合同 确保效力 放飞效率 千里之堤溃于蚁穴 十二、数据库的未来 PB级结构化日志数据的高效处理 TBase多中心多活应用实践 使用 TiDB 列存引擎进行实时数据分析 十三、图神经网络、知识图谱 知识图谱在内容安全中的实践应用 百度事件图谱技术与应用 华为云知识图谱平台技术及案例分享 知识图谱在腾讯AI医疗的应用实践-脱敏版 十四、推荐系统 多模态内容理解在推荐系统的应用 小红书推荐系统的架构演进 知乎搜索排序模型实践 十五、微服务的2.0时代 如何优雅的步入微服务2.0时代(脱敏版) 微服务之后,分层架构该如何演进 微服务网关(2) 十六、云原生构建之路 从0到1构建云原生智能金融电商-脱敏版 Tars与k8s如何结合,助力阅文海外业务 云原生应用性能优化之道 Dubbo 基于 MOSN 在 Service Mesh 场景下的落地实践-曹春晖 十七、智慧金融 智慧金融的新基础设施-数据中台-A2M 自然语言处理在金融实时事件监测和财务快讯生成中的应用 联邦学习在金融安全领域的研究与应用 人工智能Fairness在金融行业的研究:基于Pipeline的方法 十八、智能数据分析 闲鱼纳米镜--人人都是数据分析师 大数据分析系统在游戏领域的实践 十九、智能语音 智能语音交互 面向自然交互的多模态人机交互解决方案 二十、AI基础设施建设 飞桨开源模型库与行业应用 基于飞桨的深度学习全流程开发实战 NLP定制化训练实践1.3 二十一、AIOps AItest 百度AIOps解决方案及行业落地案例--脱敏 邱化峰-使用AI从业务测试走向业务验证 面向人工智能的测试体系建设 - 脱敏 二十二、FinTech 恒生银行DevOps实践和探索 数字化转型:从内部一体走向内外一体 基于区块链的隐私支付分析与比较 二十三、IOT 数字化转型升级 AIoT在工业水处理中的应用和实践及对永续发展的意义 二十四、NLP 阿里小蜜DeepQA算法平台化大规模提效实践 多模态内容生成在京东商品营销中的探索与实践

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值