- 博客(9)
- 收藏
- 关注
原创 DL入门笔记——机器学习(1)
一、直觉性解释机器学习寻找一个function或者一系列rules,使得当给定输入时,机器可以像人一样给出输出【Model】即对应着所有可能function对应的set定义函数set——衡量模型好坏——选择最佳模型二、监督学习(supervised learning)(1)回归问题function集的输出是scalar连续数值(2)分类问题分为二分类与多分类(3)deep learning问题非线性学习方法,用于语音、图像等三、半监督学习(semi-sup..
2021-08-16 10:57:54 235
原创 集成学习学习笔记——数据挖掘实战流程(8)
一、厘清问题 厘清特征、预测目标、损失函数、数据集二、数据EDA对各数据分布(pdf)做展示,对训练集测试集中分布不均的特征做删除或者其他操作 查看特征间的相关性,对那些与target相关系数小于一定阈值的特征可以酌情删除 对数据做标准化(归一化、normal化)三、特征工程对特征做Box-Cox变换,对非正态分布的连续性特征进行改造,同时利用QQ图去观察其是否服从正态分布。 考虑对target变量(一般是时序性且方差递增的变量)做对数变换 模型构建以及集成学习: ...
2021-07-31 22:58:48 137
原创 集成学习学习笔记——Blending与Stacking(7)
一、主要思想基于先前我们所拥有的传统机器学习的分类器或者回归器,我们在第一层输出一系列预测结果。再基于这一系列预测结果,作为第二层模型的context输入,再最后输出一个集成的预测结果。二、Blending数据集T【步骤】总结来说:训练集用来训练第一层模型,验证集用来调参,测试集用来度量模型效果(1)将数据划分为训练集和测试集(test_set),再将训练集二次划分为训练集(train_set)和验证集(val_set)(2)创建第一层的多个模型,这些模型可以同质化也可以异质化(
2021-07-28 22:31:59 226
原创 集成学习学习笔记——Boosting(6)
一、Bagging与BoostingBagging:基于Bootstrap法,通过获得多个不同样本集合(以及特征抽样方法)对同一类型模型做拟合,并利用投票法得出最终预测。主要思路是通过大幅降低方差来降低泛化误差。 Boosting:使用同一组数据集,通过迭代学习降低学习的偏差来降低泛化误差。主要有Adaptivve Boosting和Gradient Boosting(XGB、LightGBM、Catboost)两类二、Boosting思路及方法基于PAC学习理论框架,弱学习与...
2021-07-25 16:26:20 103
原创 集成学习学习笔记——Bagging(5)
一、投票法【Def】属于集成学习的一种,可帮助提升模型的泛化能力,减少模型的错误率。【Compute】对回归模型:投票法可以是多个模型的预测值的平均值、众数或者中位数 对分类模型:硬投票法——多个模型预测值中,出现次数最多的类别 软投票法——对各类预测结果的概率求和,选取概率之和最大的类别【原理】 1.少数服从多数,通过多模型集成降低泛化误差中...
2021-07-23 12:03:16 232
原创 集成学习学习笔记——分类问题(4)
Goal:实现一个完整的分类项目机器学习项目=Data + Model(Strategy) + Algorithm(Optimization)一、数据准备 在python的sklearn库中,利用sklearn.datasets模块,分类数据有经典的load_iris(),或者我们可以利用make_classification()随机生成分类数据。 数据的特征筛选可利用之前blog(3)中的训练误差修正or交叉验证,估计出测试误差,然后通过最优子集选择或向前逐步选...
2021-07-20 16:47:22 308
原创 集成学习学习笔记——偏差、方差理论(3)
一、偏差方差理论模型——在测试集上的泛化能力足够强为样本标签,为模型对样本的拟合结果,左侧为测试均方误差(即模型泛化能力),右侧第一项为预测结果本身的的方差,第二项为拟合结果与ground truth 间的偏差(L2范数),第三项为样本标签与ground truth之间的噪声偏差(不可约误差)——>建模任务的难度模型方差:从i.i.d.的数据集中抽样出不同的训练集时,由他们训练得到的模型的差异性就是模型的方差(模型复杂度越高,模型方差越大),度量同一个模型在不同数据集上的稳定性 模型
2021-07-17 00:06:44 278 2
原创 集成学习学习笔记——回归模型(2)
一、回归模型阐述预测连续性因变量时——回归问题,预测离散型分类因变量时——分类问题二、线性回归模型假设特征矩阵为 ,系数向量为,,三、Regression Tree四、SVR
2021-07-14 12:27:24 273
原创 集成学习学习笔记——数学基础(1)
一、高等数学与线性代数1.Jacobi矩阵假设F:Rn——>Rm,则F的Jacobi矩阵为【yi/xj】(m*n)2.Hessian矩阵 假设F:Rn——>R,则F的Hessian矩阵为二、概率论与随机过程初步概率空间表示为,其中Omega为全体trial结果的集合,F为Omega的幂集的子集(对事件集合的),P为概率测度。随机变量则为Borel可测函数随机过程略三、拒绝采样与MCMC采样1.拒绝采样当有一个复杂概率分布,我们需要依照该分布...
2021-07-12 15:53:22 165
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人