![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习面试
猫小咪编程
不忘初心
展开
-
机器学习特征工程总结
1.什么是特征工程有这么一句话在业界广泛流传,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。特征工程主要分为三部分:1.数据预处理 对应的sklearn包:sklearn-Processing data2.特征选择 对应的sklearn包: sklearn-F...转载 2020-04-19 15:41:02 · 1873 阅读 · 2 评论 -
机器学习中用什么评价分类结果?
我们在机器学习中如何评价一个算法的好坏呢?对于一个回归问题,可以使用MSE、RMSE、MAE、R方。对于一个分类问题,可以使用分类精准度。但是实际上,分类精准度是存在陷阱的,有时候我们会需要更加全面的信息。1.1 分类准确度够用么?分类准确度在评价分类算法时,会有很大的问题的。分类算法的评价要比回归算法多很多。对于一个癌症预测系统,输入检查指标,判断是否患有癌症,预测准确度99.9%。这个系...转载 2020-04-06 23:24:42 · 1070 阅读 · 0 评论 -
机器学习面试题之朴素贝叶斯(九)
转自木东居士的数据挖掘面试题之:朴素贝叶斯1.什么是贝叶斯决策论?贝叶斯决策论是概率框架下实施决策的基本方法。要了解贝叶斯决策论,首先得先了解以下几个概念:先验概率、条件概率、后验概率、误判损失、条件风险、贝叶斯判别准则。先验概率: 所谓先验概率,就是根据以往的经验或者现有数据的分析所得到的概率。如,随机扔一枚硬币,则p(正面) = p(反面) = 1/2,这是我们根据已知的知识所知道的信...转载 2020-03-30 14:02:32 · 4997 阅读 · 0 评论 -
机器学习面试题之PCA(八)
1.PCA降维降维的必要性多重共线性–预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。过多的变量会妨碍查找规律的建立。仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征的一个组内。降维的目的:减少预测变量...转载 2020-03-27 13:27:03 · 3292 阅读 · 1 评论 -
常见分类算法的优缺点
贝叶斯分类法优点:1)所需估计的参数少,对于缺失数据不敏感。2)有着坚实的数学基础,以及稳定的分类效率。缺点:1)假设属性之间相互独立,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。2)需要知道先验概率。3)分类决策存在错误率。决策树 优点:1)不需要任何领域知识或参数假设。2)适合高维数据。3)简单易于理解。4)短时间内处理大量数据,得到可行且效果较好的结果...转载 2020-03-27 13:25:45 · 1503 阅读 · 0 评论 -
机器学习面试题之Kmeans(七)
聚类分类(class)与聚类(cluster)不同,分类是有监督学习模型,聚类属于无监督学习模型。聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧氏距离。欧氏距离即欧几里得距离。P(x1)−Q(x2):∣x1−x2∣=(x1−x2)2P(x1,y1)−Q(x2,y2):(x1−x2)2+(y1−y2)2P(x1,y1,z1)−Q(x2,y2,z2):(x1−x2)2...转载 2020-03-27 11:58:26 · 5221 阅读 · 0 评论 -
机器学习面试题之KNN(六)
转自小狼狗的KNN面试问题的总结1.简述一下KNN算法的原理KNN既可以用于分类,也可以用于回归。本身没有显示的模型训练,多数情况用于分类算法。KNN算法我们主要要考虑三个重要的要素,对于固定的训练集,只要这三点确定了,算法的预测方式也就决定了。这三个最终的要素是k值的选取,距离度量的方式和分类决策规则。1,K值的选择一般选择一个较小的值,这取决于数据量的大小和数据维度。通常K为3~10.一...转载 2020-03-27 11:27:04 · 2105 阅读 · 0 评论 -
机器学习面试题之SVM(五)
1.你能给我讲讲什么是SVM吗?回答:SVM是一种二分类模型,它的基本模型是在特征空间中寻找间隔最大化的分割超平面的线性分类器。如在下面的两个类别中(暂且称两个类为黄球和红球),我们要将其分割开的方式有多种,但是究竟哪一种才是最优的分割方式呢?这就是支持向量机所要解决的问题。简单而又通俗点的理解:支持向量机的优化目标是找到一条线(w和b), 使得离该线最近的点之间的距离最长。但是在这个过程中...转载 2020-03-27 11:13:00 · 8368 阅读 · 1 评论 -
机器学习面试题之随机森林(四)
自助聚合每次从总样本矩阵中以有放回抽样的方式随机抽取部分样本构建决策树,这样形成多棵包含不同训练样本的决策树,以削弱某些强势样本对模型预测结果的影响,提高模型的泛化特性。随机森林在自助聚合的基础上,每次构建决策树模型时,不仅随机选择部分样本,而且还随机选择部分特征,这样的集合算法,不仅规避了强势样本对预测结果的影响,而且也削弱了强势特征的影响,使模型的预测能力更加泛化。随机森林相关API:...转载 2020-03-25 15:50:48 · 7077 阅读 · 0 评论 -
机器学习面试题之Bagging、Boosting、Stacking
本文引自公众号数据科学家的入门数据竞赛系列(2)1.什么是集成学习在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型,也就是所谓的弱监督模型(在某些方面表现的比较好)。集成学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型。即使用某些算法生成多个模型,再将这些模型按照某些方法组合在一起...转载 2020-03-25 10:04:46 · 274 阅读 · 0 评论 -
机器学习面试题之决策树(三)
1.什么是决策树首先从训练样本矩阵中选择第一个特征进行子表划分,使每个子表中该特征的值全部相同,然后再在每个子表中选择下一个特征按照同样的规则继续划分更小的子表,不断重复直到所有的特征全部使用完为止,此时便得到叶级子表,其中所有样本的特征值全部相同。对于待预测样本,根据其每一个特征的值,选择对应的子表,逐一匹配,直到找到与之完全匹配的叶级子表,用该子表中样本的输出,通过平均(回归)或者投票(分类...转载 2020-03-25 10:04:34 · 3035 阅读 · 0 评论 -
数据分析之异常值检测与处理
(一)什么是异常值?在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为预测问题通产关注的是整体样本的性质,而异常点的生成机制与整体样本完全不...转载 2020-03-25 09:54:57 · 16243 阅读 · 0 评论 -
数据分析之缺失值处理
数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,很可能会得出错误的结论。造成数据缺失的原因信息被遗漏,可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也...转载 2020-03-25 09:55:09 · 2839 阅读 · 0 评论 -
机器学习面试题之机器学习基础(一)
1、L1与L2正则化他们都是可以防止过拟合,降低模型复杂度。L1会趋向于产生少量的特征,而其他的特征都是0;L2会选择更多的特征,这些特征都会接近于0。L1在特征选择时非常有用,L2就只是一种规则化而已。简单总结一下就是:L1范数: 为x向量各个元素绝对值之和。L2范数: 为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数 。Lp范数: 为...转载 2020-03-25 10:03:32 · 44229 阅读 · 0 评论 -
机器学习面试题之逻辑回归(二)
1.逻辑回归概述逻辑回归是一个线性的二分类模型,主要是计算在某个样本特征下事件发生的概率,比如根据用户的浏览购买情况作为特征来计算他是否会购买这个商品,LR的最终值是根据一个线性和函数再通过一个sigmoid函数来求得的,该线性和函数是权重与特征值的累加以及加上偏置求出来的,所以训练LR也就是训练线性和函数的各个权重w。权重w一般使用最大似然法来估计,估计出似然函数的负号极小值就会得到最优w解...转载 2020-03-25 10:04:24 · 1914 阅读 · 0 评论