理论学习
本周的理论学习主要是学习了几大经典的机器学习算法。包括但不限于随机森林算法,GB算法,降维算法等。
随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。
bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本,计算平均值,然后平均所有的平均值以便更好的估计真实的平均值。
bagging 使用相同的方法,但是它估计整个统计模型,最常见的是决策树。在训练数据中抽取多个样本,然后对每个数据样本建模。当你需要对新数据进行预测时,每个模型都进行预测,并将所有的预测值平均以便更好的估计真实的输出值。
梯度增强算法(Gradient Boosting)使用多个弱算法来创建更强大的精确算法。它与使用单个估计量不同,而是使用多个估计量创建一个更稳定和更健壮的算法。梯度增强算法有几种:
XGBoost — 使用线性和树算法
LightGBM — 只使用基于树的算法
梯度增强算法的特点是精度较高。此外,LightGBM 算法具有令人难以置信的高性能。
降维算法(Dimensional Reduction)。在机器学习和统计学领域,降维是指在限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程,并可进一步细分为特征选择和特征提取两大方法。
一些数据集可能包含许多难以处理的变量。特别是资源丰富的情况下,系统中的数据将非常详细。在这种情况下,数据集可能包含数千个变量,其中大多数变量也可能是不必要的。在这种情况下,几乎不可能确定对我们的预测影响最大的变量。此时,我们需要使用降维算法,降维的过程中也可能需要用到其他算法,例如借用随机森林,决策树来识别最重要的变量。
实践学习
本周则主要是继续对数据进行处理,由于之前数据处理的并不好,尝试了一些新的降维方法,希望能够得到更高质量的数据。
网上所能够找到的数据处理相关方法有很多,各不相同。为了处理数据集的相关特征,也尝试了不同的降维方法。
最终的到的成绩如图所示: