机器学习
Ian_Wonder
这个作者很懒,什么都没留下…
展开
-
算法记录题四
1、什么是集成学习算法?2、集成学习主要有哪几种框架,并简述他们的工作过程?3、Boosting算法有哪两类,他们之间的区别是什么?4、什么是偏差和方差?5、如何从减少方差和偏差的角度解释Boosting和Bagging的康?6、随机森林的工作原理是什么?7、随机森林的随机性主要体现在哪些方面?8、随机森林算法有哪些优缺点?9、为什么随机森林不能用全部训练样本去训练m颗随机树?10、简述随机森林和GBDT的区别...原创 2021-08-18 09:45:41 · 168 阅读 · 0 评论 -
算法题记录三
1、机器学习中的逻辑回归与线性回归有哪些异同点?2、回归问题常用的性能度量指标有哪些?3、分类问题常用的性能度量指标有哪些?4、逻辑回归的损失函数是什么?如何推导?5、处理多标签分类问题,逻辑回归一般怎么做?6、全概率公式&贝叶斯公式分别是什么?7、朴素贝叶斯(Naive Bayes),“Naive”在何处?8、朴素贝叶斯有没有超参数可调?9、简述朴素贝叶斯的工作流程?10、朴素贝叶斯对异常值是否敏感?...原创 2021-08-18 09:40:35 · 158 阅读 · 0 评论 -
算法题记录二
1、为什么要经常对数据特征做归一化?2、为什么需要特征组合?如何处理高维组合特征?3、欧式距离和曼哈顿距离的区别?4、 哪些场景使用余弦相似度?哪些使用欧式距离?5、什么是独热编码?相较于直接使用数字作为表示的优点是什么?6、简述过拟合和欠拟合的具体表现?7、缓解过拟合和欠拟合的方法有哪些?8、L1和L2正则先验分别服从什么分别?9、为什么树形结构不需要进行特征归一化?10、数据不平衡是什么?如何解决数据不平衡问题?...原创 2021-08-18 09:35:29 · 116 阅读 · 0 评论 -
上采样下采样 过采样 欠采样
一、上采样和下采样的对比上采样:放大图片下采样:缩小图片二、过采样和欠采样的对比针对于正负样本不均衡,例如当正负样本比例达到1:99,分类器将所有的样本都判为负样本能达到99%的正确率,显然结果不是我们想要的。又例如,有一组数据,其中标签为1的样本数有2000,标签为0的数为400。过采样:从少数类样本中(这里标签为0的样本就是少数样本)重复抽取样本,对少数类样本进行多次复制,扩大数据规模欠采样:从多数类样本中(这里标签为1的样本就是多数样本)丢弃部分样本,可能会损失部分有用的东西,造成模原创 2021-07-06 14:04:52 · 685 阅读 · 0 评论 -
机器学习之Adaboost笔记
一、Adaboost的特性Adaboost对每一个样本分配权重,对每一轮的弱分类器也分配一个权重。Adaboost通过分类误差率来更新下一轮的样本权重,即提高被误分类的样本权重,并降低被正确分类的样本权重,使得没有被正确分类的样本在后一轮训练时获得更多的关注。对基分类器分配权重,加大误差率较小的弱分类器权重,使其在表决中起较大的作用。二、Adaboost算法输入:训练数据集T = {(x1, y1), (x2, y2), (x3,y3),…(xn,yn)},其中xi ∈ X ⊆ Rn,原创 2021-01-06 21:28:33 · 210 阅读 · 0 评论