![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习百问
大仙儿智
热爱代码,心怀梦想
https://me.csdn.net/lmj_like_c
之前的博客密码忘记了,欢迎大家参观
展开
-
【机器学习百问】14.过拟合?欠拟合?如何处理?
问题难度(5分制):1;过拟合定义:训练集上的效果好于测试集。一般可能是训练数据过少或网络过于复杂,导致网络在训练集上的拟合结果非常好,但由于其数据少或算法简单,无法扩展到新的数据中,这种现象为过拟合。欠拟合定义:欠拟合就是不管在哪里结果都不好。算法过于简单或数据过于多都有可能引起,导致算法无法有效捕捉到完整的数据特征。在训练集和测试集上都表现的很差劲。...原创 2019-12-09 11:09:58 · 207 阅读 · 0 评论 -
【机器学习百问】13.超参数如何调优
问题难度(五分制):3超参数定义:在网络计算中不会变化,但对计算结果有影响的参数;比如:学习率(搜索步长),目标值(期望值),搜索范围等;调优方法:1.网格搜索法(暴力求解)在给定范围内,遍历每一个可能的取值(步长的可能取值,范围的可能取值等),寻求最优点;(由于每一个都要试一试,所以耗时巨大);改进版的网格搜索是现在一个较大范围内确定可能的位置(步长稍微大一点先到达可能点),再在可...原创 2019-11-25 11:47:26 · 172 阅读 · 0 评论 -
【机器学习百问】12.自助验证中,当n趋于无穷大时,验证集最大能到多少?
问题难度(5分制):3自助验证定义:基于自助采样法。对于总数为n的样本集合,进行n次有放回(有重复)的随机抽样,n次抽样结束后,未被选中的样本组成一个集合作为验证集;自助验证优点:在小样本训练时,避免样本划分使得训练集和验证集过小;当n趋于无穷时,验证集多大: 样本总量的36.8%有放回抽样中,一个样本在一次抽样中未被选中的概率是:(1-1/n)n次抽样均为抽中的概率是(1-1/n)...原创 2019-11-19 17:40:42 · 471 阅读 · 0 评论 -
【百问机器学习】11.模型评估都有哪些验证方法,各自优缺点都是什么?
问题难度(5分制):2模型评估方法:1.Holdout检验:将原始集合按照7:3比例随机划分训练集和验证集;7份用来训练模型,3份用来检验模型;存在问题:验证集的验证结果依赖于原始分组。2.交叉检验(留一验证):为消除Holdout检验中的验证结果依赖原始分组问题而提出;将原始数据分为K(通常K=10)个大小相同的组,遍历十个组,每一以当前一组作为验证集,剩下九组作为训练集。流...原创 2019-11-18 11:09:21 · 1825 阅读 · 0 评论 -
【机器学习百问】10.A/B测试中如何划分实验组和对照组
难度系数(5分制): 2实验组: 施以新模型的训练集合;对照组: 施以旧模型的训练集合;划分原则:分离目标群体,然后将目标群体对半分开,一半做实验组,一半做对照组;用一个例子演示划分:问题需求:利用A/B测试验证在特定群体(青年人)中新的推荐模型A的效果;划分样例:标记所有青年人,按照所有青年人ID对半划分对比效果;错误划分:全部用户对半划分(没有区分目标群体);划分目标用户中...原创 2019-11-15 11:43:21 · 3421 阅读 · 0 评论 -
【机器学习百问】9.既然有离线测试为什么需要在线A/B测试?如何进行?
难度系数: (1/5)答案:使用在与真实工作环境相似的线上,可以更真实的评估模型性能;什么是A/B测试:A/B测试是同时为产品制定A和B两个版本,让目标客户随机访问,收集体验数据和结果,最后分析,评估出较好的版本来正式采用;如何进行:将用户无偏的分到两个桶中,保证一个用户一次智能分进一个桶中,然后对两个桶中分别使用旧模型和新模型需要原因:离线评估无法完全消除模型过拟合的风险;离...原创 2019-08-20 14:58:12 · 614 阅读 · 0 评论 -
【机器学习百问】8.余弦距离是严格定义上距离吗?
难度系数: (2/5)答案: 不是考察知识点: 考察面试者对于距离定义的理解,以及简单的反证和推导。知识点1:距离的定义在一个几何中,如果每一对元素均可唯一确定一个实数,使得三条距离公理(正定性, 对称性,三角不等式)成立,则该实数可成为这对元素之间的距离。知识点2:推导过程1.正定性证明:2.对称性证明:3.三角不等式证明: 不满足三角形两边和大于第三边,故不满足...原创 2019-08-19 15:23:26 · 604 阅读 · 0 评论 -
【机器学习百问】6.什么是P-R曲线? 用P-R还是用ROC?
难度系数(5分制): 3P-R曲线是什么: 以召回率Recall为横轴,精确率Precision为纵轴绘制的二维图像;用来直观的表示模型的性能;P-R曲线的特点: 正负样本比例变化会使得P-R曲线发生明显的=变化:(上图数据中的负祥本数量增加10倍后)都是用来挑选合适的分类模型,但与PR曲线相比ROC曲线对于样本变化更加稳定:相同数据下ROC曲线的走向趋势如下:负样本增加十倍后:...原创 2019-08-01 10:57:17 · 1012 阅读 · 0 评论 -
【机器学习百问】5.什么是AUC?
难度系数(5分制): 2AUC定义: Area Under Curve;表示 ROC曲线下总面积,量化的反应二分类器模型性能;AUC一般取值为0.5~1,取值越大,代表模型性能越好;AUC存在的意义: 当两个模型的ROC曲线相交,或肉眼不能直观感受二者之间优劣关系时用来量化的评价指标;...原创 2019-07-26 17:22:39 · 570 阅读 · 0 评论 -
【机器学习百问】4.什么是ROC曲线,如何绘制ROC曲线?
难度系数(5分制): 1ROC的来源: Receiver Operating Characteristic Curve的简称;源于军事领域,在医学领域应用甚广;中文名叫“受试者工作特征曲线”;在机器学习中用来衡量二值分类器的性能;ROC定义:ROC曲线横轴为假阳性率=FP/N(假阳性个数/真实的负样本个数), 纵轴为真阳性率=TP/P(真阳性个数/真实的正样本个数),可以用来帮助二分类...原创 2019-07-25 16:02:02 · 2539 阅读 · 0 评论 -
【机器学习百问】7.什么时候用欧式距离什么时候用余弦距离?
难度系数(5分制): 2余弦相似度的定义: 余弦相似度为两个向量之间的夹角余弦值,取值范围[-1,1], 相同为1, 正交为0, 相反为-1。余弦距离的定义: 余弦距离=1-余弦相似度;故取值范围为[0,2]。余弦距离用来衡量不同样本在空间中的关联程度。取值范围稳定,含义清晰。体现向量方向之间的相对差异。欧式(欧几里得)距离定义: 衡量两点之间的直线距离。体现数值上的绝对差异。低维度...原创 2019-08-02 18:20:57 · 1988 阅读 · 0 评论 -
【机器学习百问】3.RMSE均方误差什么时候失效?
难度系数(5分制): 1均方误差的定义: 回归问题中预测值与真实值的平均偏离程度;失效情况: 实际问题中会存在个别偏离程度非常大的离群点。比如在流量预测中,一些流量很小,刚上映或者刚获奖的影视作品,又或者一些媒体突发情况就会造成偏离程度很大的离群点。解决方案: Mean Absolute Percent Error MAPE(平均绝对百分比误差):把每个店的误差进行了归一化,降低了个...原创 2019-07-16 17:49:08 · 691 阅读 · 0 评论 -
【机器学习百问】2.精确率与召回率的权衡问题
难度系数(5分制): 1精确率与召回率的存在意义: 为解决分类问题中由于数据倾斜造成单一准确率失效问题。介绍精确率与召回率之前引入一个判定表:精确率定义Precision: Precision = TP/(TP+FP) 分类正确的正样本个数占分类器判定为正样本的比例,通常也称为查准率;召回率定义Recall: Recall = TP/(TP+FN) 分类正确的正样本个数占真正正样本的比例...原创 2019-07-15 15:07:57 · 811 阅读 · 0 评论 -
【机器学习百问】1.为什么准确率不好用?
难度系数(5分制): 1准确率定义: 分类正确样本占总体样本的比例 accuracy = n of correct / total;失效原因: 训练集中各类样本数量极端不均匀(数据偏斜), 导致准确率不能客观评价算法性能;假如我们预测某地区内人口年收入否达到50万美元,而实际训练数据中百分之八十人口未达到50万美元。如果总让分类器输出0,准确率也会达到80%;假如我们预测某地区人口是否...原创 2019-07-10 16:00:26 · 1340 阅读 · 0 评论