![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习的一些问题
阿里萨
这个作者很懒,什么都没留下…
展开
-
【机器学习的一些问题】模型评估之过/欠拟合
过拟合:训练时很好,测试时不好。欠拟合:训练时不好,测试时不好。降低过拟合的方法:从数据入手,获取更多的数据。更多的数据可以学习更多的特征,减少噪声的影响。当数据确实不足时,比如图像,可以通过平移旋转等操作制造新数据,甚至可以通过GAN制造。 降低模型复杂度。数据较少时,模型过于复杂是过拟合的主要原因,比如深度学习中的减少网络层数和神经元个数,决策树的降低深度和剪枝。 正则化...原创 2019-06-01 17:46:21 · 149 阅读 · 0 评论 -
【机器学习的一些问题】经典算法之决策树
决策树Decision Tree:包含特征选择、树的构造和树的剪枝三个过程,可用于解决分类和回归问题,简单直观、解释性强,在营销和生物医药领域特别受欢迎(树形结构在销售、诊断等场景的决策过程中特别适用),将决策树应用集成学习思想可以得到随机森林、梯度提升决策树等模型。实际应用过程中应根据数据类型、规模和任务的不同灵活选用决策树和剪枝策略。决策树常用的启发式函数ID3:最大信息增益。倾...原创 2019-06-02 16:08:03 · 233 阅读 · 0 评论 -
【机器学习的一些问题】经典算法之逻辑回归
逻辑回归Logistic Regression逻辑回归处理分类问题,线性回归处理回归问题。逻辑回归的因变量取值是一个二元分布,给定自变量和超参数后,得到因变量的期望,并根据该期望处理预测分类问题。逻辑回归和线性回归的最大区别在于:逻辑回归的自变量是离散的,而线性回归的自变量是连续的。逻辑回归和线性回归的相同之处:使用极大似然估计对训练样本建模,使用梯度下降方法求解超参数。...原创 2019-06-02 16:07:37 · 134 阅读 · 0 评论 -
【机器学习的一些问题】经典算法之支持向量机
支持向量机Support Vector Machine:数据/分类面/优化/核映射/分类超平面对于任意线性可分的两组点,它们在SVM的分类超平面上的投影点都是线性不可分的。为什么?极端假设。二维空间只存在两个点,那么它们的分类超平面就是两点连线中垂线,它们的投影点显然重合于中垂线与连线的交点。 反证法。假设有两组点,然后假设它们在分类超平面的投影点线性可分,那么很显然这个分类超平面...原创 2019-06-02 16:06:36 · 177 阅读 · 0 评论 -
【机器学习的一些问题】模型评估之超参调优
超参调优往往根据所谓的“经验值”,而超参往往对模型效果至关重要。调优的过程可视为“黑盒优化”,我们需要寻找一些方法来获取最优的超参数。需要考虑的要素目标函数,即算法需要最大化/最小化的目标。 搜索范围,一般通过上限和下限确定。 其他参数,如步长。网格搜索:通过搜索范围内所有的点来确定最优值,十分小号计算资源和时间。在实际应用中,一般用较广的搜索范围和较大的补偿寻找可能最优...原创 2019-06-01 17:35:36 · 232 阅读 · 0 评论 -
【机器学习的一些问题】模型评估之检验方法
Holdout检验将原始数据集随机划分为训练集和验证集。评估指标与原始分组有很大关系。交叉检验k-fold交叉验证:划分为k个大小相等的样本子集,依次遍历子集,当前子集为验证集其余为训练集,最终将K次评估指标平均值作为最终评估指标。留一验证:每次留下一个样本作为验证集,其余所有样本为测试集。样本数为n的情况下需遍历n次评估n次,时间开销极大。可视为留 p验证的特例。...原创 2019-06-01 17:20:27 · 516 阅读 · 0 评论 -
【机器学习的一些问题】模型评估之A/B测试
进行在线A/B测试的原因:离线模型不能消除过拟合问题。离线评估结果无法完全代替线上评估结果。 离线评估不能还原线上工作环境。比如环境延迟、数据丢失、标签缺失等等。 线上系统的商业指标在离线评估中无法计算。线上评估可以全面了解到用户点击率、留存时长等数据的变化。如何进行在线A/B测试:用户随机分桶,实验组-新模型,对照组-旧模型,要保证样本的独立性和采样的无偏性。如何分桶:避免...原创 2019-06-01 17:04:07 · 837 阅读 · 0 评论 -
【机器学习的一些问题】模型评估之余弦距离
机器学习的过程中,不仅要评估一个模型,也需要评估样本间的距离。特征用向量表示,则特征的相似性由向量的相似性而来,向量的相似性用余弦相似度表示。余弦相似度取值为[-1,1],为了得到类似于距离的表示,用1减去余弦相似度即为余弦距离,余弦距离取值为[0,2]。一个严格定义的距离应满足正定性,对称性和三角不等式这三条距离公理,余弦距离不满足三角不等式,不是一个严格定义的距离。文本、图...原创 2019-06-01 16:50:42 · 391 阅读 · 0 评论 -
【机器学习的一些问题】模型评估之ROC曲线
二值分类器Binary Classifier:机器学习领域最常用、应用最广泛的分类器。ROC曲线是评估其模型的重要指标之一。ROC曲线Receiver Operating Characteristic Curve,受试者工作特征曲线,横坐标为FPR(假阳性率False Positive Rate),纵坐标为TPR(真阳性率True Positive Rate)。FPR=FP/N,负样...原创 2019-06-01 16:33:19 · 913 阅读 · 0 评论 -
【机器学习的一些问题】模型评估之评估指标
模型评估结果不好,可能有啥原因?评估指标的选择 模型过拟合或者欠拟合 测试集和训练集划分不合理 线下样本比例和线上测试比例不一样准确率Accuracy指被正确分类的样本个数占总样本个数的比例。它是最简单直观的评价指标,但存在明显缺陷:当不同类别的样本比例非常不均衡时,占比大的类别会成为影响准确率的最大因素。精确率Precision指分类正确的正样本占所有被分类器判定为正...原创 2019-05-27 11:43:08 · 399 阅读 · 0 评论 -
【机器学习的一些问题】特征工程
特征归一化量纲指物理量的基本属性。基本量的量纲为其自身,一切导出量均可从基本量导出。为了解决指标不同量纲无法进行直接汇总的问题,一般在数据搜集完成之后还需要消除量纲影响,也成为同度量处理。相对化处理方法、函数化处理方法、标准化处理方法是目前最常用的方法。在数据处理和分析的过程中,我们对数值类型的特征做归一化可以将所有特征都统一到一个大致相同的数值区间内。常有方法有:线性函数归一化Min...原创 2019-05-23 14:07:16 · 184 阅读 · 0 评论 -
【机器学习的一些问题】降维
机器学习中,数据通常被表示为向量形式输入模型进行训练,但对于大量的多维数据直接进行处理和分析会极大消耗系统资源,因此需要通过降维缓解这一问题。降维,就是用一个低维度向量来表示原始高维度向量的特征。常见的方法有:主成分分析Principal Components Analysis,PCA 线性判别分析Linear Discriminant Analysis,LDA 等距映射 局部线性嵌入...原创 2019-06-05 03:04:57 · 662 阅读 · 0 评论