集成学习
文章平均质量分 74
What We Talk about
这个作者很懒,什么都没留下…
展开
-
DataWhale集成学习-Task6
DataWhale集成学习-Task6记录DataWhale集成学习的组队学习过程,Task6算是一个阶段性的总结,用SVM和PCA对LFW这个人脸识别数据集进行分类。这是一个多分类问题,先用PCA降维,再用SVM做分类。sklearn官方有LFW人脸识别的教程,感兴趣的朋友可以在官方文档上仔细的看整个流程。具体代码如下:import matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sk原创 2021-03-30 00:28:43 · 124 阅读 · 0 评论 -
DataWhale集成学习-Task5
DataWhale集成学习-Task5算法对比记录DataWhale集成学习的组队学习过程,Task5主要介绍的是一些基本的分类算法,包括逻辑回归、LDA、朴素贝叶斯和CART。因为绝大部分算法在数据挖掘课上都学过,这里就不过多介绍原理了,感兴趣的同学们可以在开源教材上具体的讲解。本篇博客主要是对比以上几种算法的性能以及打卡。。。算法对比这里我们使用sklearn自带的手写数字digit数据集,因为是多分类,所以使用macro-F1作为模型结果的标准,为消除随机性,使用十折交叉验证。import p原创 2021-03-28 00:11:28 · 112 阅读 · 0 评论 -
集成学习-Task4
DataWhale集成学习-Task4概念超参数调节方法实践记录DataWhale集成学习的组队学习过程,Task4主要介绍的是超参数调节。概念我们可以使用梯度方法等优化算法训练算法的参数,那超参数指的又是什么呢。首先,超参数和模型的普通参数都是未知的参数,都会对模型的性能产生影响。区别在于,超参数会直接影响模型的复杂度,我们在确定模型的超参数后才能对模型进行训练,在一定程度上,模型的超参数决定了模型性能的上限。所以超参数的调节对算法性能影响还是很大的。超参数调节方法常用的超参数调节方法还是手动调原创 2021-03-25 01:04:05 · 123 阅读 · 0 评论 -
集成学习-Task3
DataWhale集成学习-Task3泛化误差和经验损失偏差-方差分解降低方差的方法记录DataWhale集成学习的组队学习过程,Task3主要介绍的是方差偏差理论。泛化误差和经验损失在机器学习中,我们真正感兴趣的使模型能很好的拟合未知数据,设模型为fff,损失函数为L(f(x),y)L(f(x),y)L(f(x),y),带标签的数据由随机变量X,YX,YX,Y独立同分布生成,且联合分布为P(X,Y)P(X,Y)P(X,Y),由概率论的基础知识我们可以知道,损失函数L(f(x),y)L(f(x),y)原创 2021-03-22 23:20:10 · 84 阅读 · 0 评论 -
DataWhale集成学习-Task2
DataWhale集成学习-Task2线性回归目标函数的数学意义正规方程解决最小二乘问题线性回归推广广义可加模型决策树回归和支持向量回归记录DataWhale集成学习的组队学习过程,Task2是熟悉机器学习中的回归问题,主要介绍了三种算法:线性回归;决策树回归;支持向量回归。线性回归线性回归,顾名思义就是用线性模型来拟合数据,也就是说假设标签与特征之间存在yi=θTxiy_{i}=\boldsymbol{\theta}^{T} \boldsymbol{x_i}yi=θTxi这样的线性关系,线性回归原创 2021-03-19 00:19:50 · 119 阅读 · 0 评论 -
DataWhale集成学习-Task1
DataWhale集成学习-Task1回归数据集分类数据集无监督数据集记录DataWhale集成学习的组队学习过程,Task1是熟悉机器学习的三个任务,属于入门级的知识。我们知道,根据样本有无标签,传统机器学习可以分为有监督学习(样本有标签)和无监督学习(样本无标签)。有监督学习中的带标签数据集可表示为:D={(x1,y1),(x2,y2)⋯(xm,ym)}D=\{(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2)\cdots(\boldsymbol{x_m},y原创 2021-03-15 23:37:06 · 153 阅读 · 0 评论