机器学习
文章平均质量分 75
hifuture_
这个作者很懒,什么都没留下…
展开
-
算法竞赛实践-通用场景OCR文本识别任务_改进学习策略
上分思路调整模型超参数并重新finetune改进检测流程尝试在其它模型基础上finetune添加图片预处理搭建更优的模型结构并从零训练分析图片数据部分图片如小票等拍摄时有偏转和透视角度解决思路:考虑多旋转几个方向测试用霍夫变换、透视变换摆正部分像广告类图片存在各种样式的艺术字体解决思路:切出来finetun recognizer从图像检索任务借鉴思路字迹模糊的样本解决思路:锐化和对比度增强类处理训练时加随机模糊提高鲁棒性广告类存在弯曲排版的文本解决原创 2021-07-19 23:30:47 · 187 阅读 · 2 评论 -
算法竞赛实践-通用场景OCR文本识别任务_Baseline学习实践
OCR (Optical Character Recognition,光学字符识别)是最早的计算机视觉任务之一。人类使用电子设备(图像采集装置)采集现实场景中打印的字符,然后通过检测字符的形状,用字符识别的方法将其翻译成计算机文字。随着技术的发展,OCR已经逐渐应用到社会的各种需求中。现在我们尝试参与天池算法比赛“通用场景OCR文本识别任务”。我们先...原创 2021-07-15 23:29:13 · 492 阅读 · 0 评论 -
集成学习笔记13-集成学习案例1
集成学习案例1-幸福感预测该案例是一个数据挖掘类型的比赛——幸福感预测的baseline。具体来说,我们需要使用包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等)等139维度的信息来预测其对幸福感的影响。数据来源于国家官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据数据信息赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于个人幸福感的预测(预测值为1,2,3,4,5,其中1原创 2021-05-19 00:14:24 · 428 阅读 · 0 评论 -
集成学习笔记12-Stacking算法分析与案例调参实例
Stacking算法分析与案例调参实例Stacking方法是一种分层模型集成框架。以两层为例,首先将数据集分成训练集和测试集,利用训练集训练得到多个初级学习器,然后用初级学习器对测试集进行预测,并将输出值作为下一阶段训练的输入值,最终的标签作为输出值,用于训练次级学习器(通常最后一级使用Logistic回归)。由于两次所使用的训练数据不同,因此可以在一定程度上防止过拟合。由于要进行多次训练,因此这种方法要求训练数据很多,为了防止发生划分训练集和测试集后,测试集比例过小,生成的次级学习器泛化性能不强的问题原创 2021-05-13 23:19:49 · 1964 阅读 · 0 评论 -
集成学习笔记12-Blending集成学习算法
Blending集成学习算法之前提到过Bagging和Boosting集成学习算法,目前还有一种集成学习方法Stacking,这个被称为“懒人”算法,因为它不需要花费过多时间调参而且理论简单易于理解。Stacking集成算法可以理解为一个两层的集成,第一层含有多个基础分类器,把预测的结果(元特征)提供给第二层, 而第二层的分类器通常是逻辑回归,他把一层分类器的结果当做特征做拟合输出预测结果。在介绍Stacking之前,我们先来对简化版的Stacking进行讨论,也叫做Blending。Blending原创 2021-05-12 00:35:43 · 135 阅读 · 0 评论 -
集成学习笔记11-XGBoost算法分析与案例调参实例
XGBoost算法分析与案例调参实例XGBoost算法分析XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。 它在Gradient Boosting框架下实现机器学习算法。 XGBoo原创 2021-04-26 23:36:39 · 191 阅读 · 0 评论 -
集成学习笔记10-前向分步算法与梯度提升决策树
前向分步算法对于之前的Adaboost,我们需要计算多个基本分类器的错误率、样本权重及模型权重来综合得到一个强分类器来解决分类问题。进一步,我们可以利用Adaboost的逻辑,构建前向分步算法,不仅可以解决分类问题,还可以解决回归问题。加法模型在Adaboost模型中,我们把每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和,即:f(x)=∑m=1Mβmb(x;γm)f(x)=\sum_{m=1}^{M} \beta_{m} b\left(x ; \gamma_{m}\righ原创 2021-04-23 20:00:12 · 100 阅读 · 0 评论 -
集成学习笔记09-Boosting算法原理与AdaBoost
Boosting算法原理与AdaBoostBoosting原理Boosting方法是使用同一组数据集进行反复学习得到的弱学习器来最终产生预测性能强大的学习器。Boosting是通过不断减少偏差的形式来提高最终的预测效果,与之前介绍的Bagging有着本质的不同。Bagging是采用通过全样本抽样子集进行训练投票得出最终的预测,而Boosting是全样本训练优化。Bagging和Boosting的区别样本选择:Bagging:训练集是有放回的选取出子集的,各子集独立训练。Boosting:训练原创 2021-04-20 01:09:52 · 285 阅读 · 0 评论 -
集成学习笔记08-Bagging算法原理及应用
Bagging算法原理及应用Bagging原理Bagging是通过对数据进行有放回的自助采样(Bootstrap),对采样集合训练出基学习器,通过如此反复多次的学习,将多个基学习器进行简单投票法。Bagging步骤从全样本集中有放回的随机取k个样本作为一个样本集,重复T次,取得T个样本集对T个样本集每个训练出一个基学习器对所有基学习器预测结果采用取平均值(回归问题)或投票法(分类问题)得出最终结果Bagging方法之所以有效,是因为每个模型都是在略微不同的训练数据集上拟合完成的,这又使得原创 2021-04-17 00:35:17 · 989 阅读 · 0 评论 -
集成学习笔记06-分类模型的评估及调优
分类模型的评估及超参数调优分类模型与回归模型一样,可以通过网格搜索进行超参数的调优。我们在这里用两种方式尝试超参数调优:网格搜索(GridSearchCV)随机网格搜索()原创 2021-03-30 00:56:58 · 160 阅读 · 0 评论 -
集成学习笔记05-基本的分类模型
分类模型分类模型的因变量是离散值,不同与回归模型的因变量为连续值,单单衡量预测值 和因变量的相似度可能行不通。分类问题中,我们对于每个类别犯错的代价不尽相同。例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不同的,前者会使得患者无法得到及时的救治而耽搁了最佳治疗时间甚至付出生命的代价,而后者只需要在后续的治疗过程中继续取证就好了,因此我们很不希望出现前者,当我们发生了前者这样的错误的时候会认为建立的模型是很差的。为了解决这些问题,我们必须将各种情况分开讨论,然后给原创 2021-03-27 00:40:30 · 401 阅读 · 0 评论 -
集成学习笔记04-模型评估与超参数调优
模型评估与超参数调优参数与超参数模型参数是模型内部的配置变量,其值可以根据数据进行估计。- 进行预测时需要参数。- 它参数定义了可使用的模型。- 参数是从数据估计或获悉的。- 参数通常不由编程者手动设置。- 参数通常被保存为学习模型的一部分。- 参数是机器学习算法的关键,它们通常由过去的训练数据中总结得出 。模型超参数是模型外部的配置,其值无法从数据中估计。- 超参数通常用于帮助估计模型参数。- 超参数通常由人工指定。- 超参数通常可以使用启发式设置。- 超参数经常被调整为给定的预原创 2021-03-22 23:51:24 · 227 阅读 · 0 评论 -
集成学习笔记03-偏差与方差
偏差与方差我们建立机器学习最终的目的是将训练好的模型部署到真实的环境中,希望训练好的模型能够在真实的数据上得到好的预测效果,换句话说就是希望模型在真实数据上预测的结果误差越小越好。我们需要一些未出现在训练集的未知数据集成为测试数据集,简称测试集。(a) 均方误差:在回归中,我们最常用的评价指标为均方误差,即:MSE=1N∑i=1N(yi−f^(xi))2MSE = \frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2MSE=N1i=1∑N原创 2021-03-22 22:32:09 · 387 阅读 · 0 评论 -
集成学习笔记02-回归模型
回归模型Datawhale开源集成学习笔记02Datawhale开源集成学习笔记02线性回归模型回归这个概念是19世纪80年代由英国统计学家郎西斯.高尔顿在研究父子身高关系提出来的,他发现:在同一族群中,子代的平均身高介于父代的身高以及族群的平均身高之间。具体而言,高个子父亲的儿子的身高有低于其父亲身高的趋势,而矮个子父亲的儿子身高则有高于父亲的身高的趋势。也就是说,子代的身高有向族群平均身高"平均"的趋势,这就是统计学上"回归"的最初含义。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和原创 2021-03-18 00:05:38 · 234 阅读 · 0 评论