综合实训周报四

最新推荐文章于 2021-06-07 15:08:53 发布

liym0706

最新推荐文章于 2021-06-07 15:08:53 发布

阅读量213

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/liym0706/article/details/109172178

版权

数据挖掘专栏收录该内容

8 篇文章 0 订阅

订阅专栏

目录标题

理论学习
实践学习

理论学习

本周的理论学习主要是学习了几大经典的机器学习算法。包括但不限于随机森林算法，GB算法，降维算法等。

随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation（又称 bagging）集成机器学习算法的一种。
bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本，计算平均值，然后平均所有的平均值以便更好的估计真实的平均值。
bagging 使用相同的方法，但是它估计整个统计模型，最常见的是决策树。在训练数据中抽取多个样本，然后对每个数据样本建模。当你需要对新数据进行预测时，每个模型都进行预测，并将所有的预测值平均以便更好的估计真实的输出值。
在这里插入图片描述

梯度增强算法（Gradient Boosting）使用多个弱算法来创建更强大的精确算法。它与使用单个估计量不同，而是使用多个估计量创建一个更稳定和更健壮的算法。梯度增强算法有几种：
XGBoost — 使用线性和树算法
LightGBM — 只使用基于树的算法
梯度增强算法的特点是精度较高。此外，LightGBM 算法具有令人难以置信的高性能。

降维算法(Dimensional Reduction)。在机器学习和统计学领域，降维是指在限定条件下，降低随机变量个数，得到一组“不相关”主变量的过程，并可进一步细分为特征选择和特征提取两大方法。
一些数据集可能包含许多难以处理的变量。特别是资源丰富的情况下，系统中的数据将非常详细。在这种情况下，数据集可能包含数千个变量，其中大多数变量也可能是不必要的。在这种情况下，几乎不可能确定对我们的预测影响最大的变量。此时，我们需要使用降维算法，降维的过程中也可能需要用到其他算法，例如借用随机森林，决策树来识别最重要的变量。

实践学习

本周则主要是继续对数据进行处理，由于之前数据处理的并不好，尝试了一些新的降维方法，希望能够得到更高质量的数据。
网上所能够找到的数据处理相关方法有很多，各不相同。为了处理数据集的相关特征，也尝试了不同的降维方法。
最终的到的成绩如图所示：
在这里插入图片描述

liym0706

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
综合实训周报四

目录标题理论学习实践学习理论学习本周的理论学习主要是学习了几大经典的机器学习算法。包括但不限于随机森林算法，GB算法，降维算法等。随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation（又称 bagging）集成机器学习算法的一种。bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本，计算平均值，然后平均所有的平均值以便更好的估计真实的平均值。bagging 使用相同的方法，但是它估计整个统计模型，最常见的是决策树
复制链接

扫一扫