Mr.小林-CSDN博客

幸福感预测背景介绍幸福感涉及了哲学、心理学、社会学、经济学等多方学科，同时与大家生活息息相关，每个人对幸福感都有自己的衡量标准。如果能发现影响幸福感的共性，找到影响幸福感的政策因素，便能优化资源配置来提升国民的幸福感。目前社会科学研究注重变量的可解释性和未来政策的落地，主要采用了线性回归和逻辑回归的方法，在收入、健康、职业、社交关系、休闲方式等经济人口因素；以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。具体来说，我们需要使用包括个体变量（性别、年龄、地域、职业、健康、婚姻与政

2021-05-19 02:20:54 321

原创 Datawhale集成学习：Stacking 算法与实战

前言Stacking核心思想stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。训练过程（使用K折交叉验证）划分训练集和测试集，并将训练集进一步随机且大致均匀的分为 K 份，交叉验证过程中，随机选(K-1) 份为训练集，剩余1份为验证集选择基模型，在划分后的训练集上进

2021-05-14 01:02:37 398

原创 Datawhale集成学习：Blending集成学习算法

前言Blending 是简化版的Stacking，Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。Blending方法的基本思路将数据按照一定比例划分为训练集和测试集，其中训练集按照一定比例再次划分为训练集和验证集创建第一层的多个同质或异质模型使用训练集数据对第一层模型进行训练，然后使用验证集和测试集进行模型验证和测试，得到{val_predict}，

2021-05-12 01:21:49 137

原创 Datawhale集成学习：XGBoost算法分析与案例调参实例

XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted，包括前面说过，两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM）XGBoost利用了

2021-04-27 00:34:50 176

原创 Datawhale集成学习：前向分步算法与梯度提升决策树

前向分步算法AdaBoost是一种加法集成策略的boosting算法，加法集成策略的boosting算法包括提升树、梯度提升树、以及比较火热的XGBoost。加法模型可使用前向分步算法求解。在Adaboost的算法中，是使用多个基本分类器来利用Boosting(提升)的方法来实现的，每个分类器都是串行的，具有顺序承接的特性。所以中训练的过程中，可以认为Adaboost每次学习单一分类器以及单一分类器的参数(权重)。抽象出Adaboost算法的整体框架逻辑，构建集成学习的一个非常重要的框架----前向分

2021-04-24 00:31:51 146

原创 Datawhale集成学习：Boosting的思路与Adaboost算法

前言在之前的投票法Voting和bagging算法中，都是在训练的过程中可以并行计算，Bagging思想的实质是：通过Bootstrap(自助采样)的方式对全样本数据集进行抽样得到抽样子集，对不同的子集使用同一种基本模型进行拟合，然后投票得出最终的预测。也因此他们模型与模型之间是没有联系的，独立存在的，是一种通过降低方差的方式减少预测误差。而Boosting是串行的，主要思想是在上一个基分类器预测结果的基础上对下一个基分类器预测效果进行提升，聚焦于对错误的改进。Boosting方法的基本思路我个人的

2021-04-21 00:07:47 114

原创 Datawhale集成学习：Bagging的原理和案例分析

bagging (Bootstrap Aggregating) 的原理分析bagging的核心在于自助采样(bootstrap) 这一概念，即有放回的从数据集中进行采样。这样做的好处在于能够降低数据的方差。举例是说：我们随机取出一个样本放入采样集合中，再把这个样本放回初始数据集，重复K次采样，最终我们可以获得一个大小为K的样本集合。同样的方法，我们可以采样出T个含K个样本的采样集合，然后基于每个采样集合训练出一个基学习器，再将这些基学习器进行结合，这就是Bagging的基本流程。回归问题中：是通

2021-04-18 00:17:11 730

原创 Datawhale集成学习：投票法的原理和案例分析

投票法的原理分析投票法是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高模型的鲁棒性。在理想情况下，投票法的预测效果应当优于任何一个基模型的预测效果。投票法在回归模型与分类模型上均可使用：回归投票法：预测结果是所有模型预测结果的平均值。分类投票法：预测结果是所有模型种出现最多的预测结果。分类投票法又可以被划分为硬投票与软投票：硬投票：预测结果是所有投票结果最多出现的类。软投票：预测结果是所有投票结果中概率加和最大的类。从这个例子我们可以看出，软投票法与硬投票法可以

2021-04-14 23:58:28 673

原创 Datawhale集成学习：掌握分类问题的评估及超参数调优

前言很快就密集地学习机器学习15天了，这章是作业，使用 scikit-learn 的人脸数据集 (fetch_lfw_people) 来进行分类问题的解决和超参数调优，也是对自己学习的验证，学得很开心~数据集介绍与概览人脸数据集 (fetch_lfw_people) 里面大概有 1万多张照片，以不同人来进行分类是有5700多类。在下面的程序码中，主要是加载 fetch_lfw_people 数据集，并通过对数据集进行提取，来减少数据集的量（设置仅保留具有至少40个不同图片的人的图片），这样达成要求的

2021-03-29 21:44:37 364

原创 Datawhale集成学习：掌握基本的分类模型(使用sklearn构建完整的分类项目)

前言在生活中，大部分的决策问题都是离散的，那就涉及到分类上的问题，从二元分类到多元分类。因此在机器学习中，实践分类问题是很有调整性的。一、使用的IRIS鸢尾花数据集来实践分类项目from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['ta

2021-03-27 19:13:59 194

原创 Datawhale集成学习：对模型超参数进行调优(调参)

前言对于模型的超参数对于在估计模型的参数上，有着重要的地位。对模型超参数进行调优(调参)在刚刚的讨论中，我们似乎对模型的优化都是对模型算法本身的改进，比如：岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是，大家是否想过这样的问题：在L2正则化中参数λ\lambdaλ应该选择多少？是0.01、0.1、还是1？到目前为止，我们只能凭经验或者瞎猜，能不能找到一种方法找到最优的参数λ\lambdaλ？事实上，找到最佳参数的问题本质上属于最优化的内容，因为从一个参数集

2021-03-24 14:45:02 454

原创李宏毅课程-机器学习 PM2.5预测

前言目前有在百度的 AI Studio 上的李宏毅课程-机器学习特训营上学习，有练习到回归问题中的练习题，采用逻辑回归的方法去尝试编写程序回归预测PM2.5的值。尝试把一些心得记录下来！项目描述本次作业的资料是从行政院环境环保署空气品质监测网所下载的观测资料。希望大家能在本作业实现 linear regression 预测出 PM2.5 的数值。数据集介绍本次作业使用丰原站的观测记录，分成 train set 跟 test set，train set 是丰原站每个月的前 20 天所有资

2021-03-23 22:29:18 754

原创 Datawhale集成学习：偏差与方差理论

偏差与方差理论在回归问题的算法中，利用训练数据集来估计模型的参数，并最终尽量让损失函数(Loss) 的值在训练集上最小化为0，例如对于线性回归中，为了让损失函数(Loss)的值为0，提高线性回归方程的项次(高项次)，让训练集上的每一个数据都位于线性回归曲线上，那模型在训练集上的损失值也就能误差为0。但是建立机器学习模型的初衷，并不是只是为了在训练集上达到好的效果，而是希望望建立的机器学习模型在未知且情况复杂的测试数据上表现优异。希望模型在测试集上表现优异！一、训练均方误差与测试均方误差在回归

2021-03-22 13:06:01 279

weixin_41221544的博客

原创 JoyRL论文阅读《Emergence of Locomotion Behaviours in Rich Environments, Nicolas Heess, Dhruva TB et al.》

原创 JoyRL论文阅读《Deep Recurrent Q-Learning for Partially Observable MDPs, Hausknecht and Stone》

原创 Datawhale&Git-Model：假设检验3-分类数据的检验

原创 Datawhale&Git-Model：假设检验2-多元数值向量的检验

原创 Datawhale&Git-Model：假设检验1-方法论与一元数值检验

转载 Datawhale&Git-Model：分类分析与模型诊断

转载 Datawhale&Git-Model：回归分析与模型诊断

转载 Datawhale&Git-Model：EDA初体验--波士顿房价分析

转载 Datawhale&Git-Model：动手学 Pandas

原创 Datawhale&Git-Model：概率论

原创 Datawhale&Git-Model：线性代数

原创 Datawhale集成学习：蒸汽量预测

原创 Datawhale集成学习：幸福感预测