论文精读——基于机器学习的越南生活固体废弃物预测

该研究通过比较六种机器学习模型(线性模型、支持向量机、Cubist、随机森林、KNN和人工神经网络)预测越南城市固体废弃物产生。研究发现,城市人口、平均月消费支出和总零售额是关键影响因素。随机森林和KNN算法表现最佳,R2值超过0.96,MAE在121.5-125.0之间。这些模型为越南的固体废弃物管理提供预测依据,未来可考虑更新数据以优化预测模型。
摘要由CSDN通过智能技术生成


原文链接:https://www.sciencedirect.com/science/article/pii/S0921344920306996
备注: R 2 R_2 R2即为统计学中的可决系数,用来描述拟合程度。

Abstract

原文:
The main aim of this work was to compare six machine learning (ML) - based models to predict the municipal solid waste (MSW) generation from selected residential areas of Vietnam. The input data include eight variables that cover the economy, demography, consumption and waste generation characteristics of the study area. The model simulation results showed that the urban population, average monthly consumption expenditure, and total retail sales were the most influential variables for MSW generation. Among the ML models, the random forest (RF), and k-nearest neighbor (KNN) algorithms show good predictive ability of the training data (80% of the data), with an R2 value > 0.96 and a mean absolute error (MAE) of 121.5–125.0 for the testing data (20% of the data). The developed ML models provided reliable forecasting of the data on MSW generation that will help in the planning, design and implementation of an integrated solid waste management action plan for Vietnam. The limitations of this work may be the heterogeneity of the dataset, such as the lack of data from lower administrative units in the country. In such cases, the predictive ML algorithm can be updated and re-trained in the future when the reliable data is added.

【译】
本研究旨在通过比较六种基于机器学习的模型来预测越南生活固体废弃物。

输入数据包括八个变量,涵盖研究区域的经济、人口、消费和废弃物产生特征。

模型仿真结果表明,城市人口、平均月消费支出和总零售额是影响城市生活废弃物产生的主要变量。在六类机器学习模型中,随机森林和K最近邻算法对训练数据集(80%的数据)具有良好的预测能力(决定系数>0.96),且在测试集(20%的数据)上的平均绝对误差为121.5–125.0。

基于机器学习模型的预测结果有助于越南的综合固体废弃物管理行动计划的规划、设计和实施。本研究的局限性体现在数据集的异质性,如越南下级行政部门缺乏有效数据。基于此,当未来能够获取更多的可靠数据时,可以更新和重新训练机器学习预测模型。


1. Introduction(partly)

文献综述节选:

为了预测城市固体废弃物的产生,已采用了不同规模的各种模型,例如直辖市,省和地区。

最初,由于基础数学的简单性和易于解释获得的结果,线性回归,组比较,投入产出分析,质量平衡以及相关分析和时间序列分析被广泛使用。 在这一先进的研究领域中,最近,机器学习(ML)方法已被证明可有效预测城市固体废弃物的产生。

Johnson et al. (2017)使用梯度提升模型来预测纽约市每周的城市生活垃圾产生量( R 2 R_2 R2为0.82)。Abbasi and El Hanandeh (2016)应用支持向量机(SVM)来预测澳大利亚昆士兰州的每月MSW生成量( R 2 R_2 R2为0.71)。另外,还有学者部署了其他ML模型来预测不同领域的MSW生成,例如:

  • SVM(Kumar et al., 2018)
  • random forest (RF)(Dissanayaka and Vasanthapriyan, 2019; Kumar et al., 2018)
  • 人工神经网络(ANN)(Azadi and Karimi-Jashni, 2016; Kannangara et al., 2017).

然而,这些以前的大部分集中于预测城市固体废弃物产生的工作都没有进行特征选择研究(如变量重要性评估)来确定最具影响力的输入变量,这表明无法确定输入变量对产出的作用和影响这一事实。

例如,在Johnson et al. (2017)的研究中,作者仅基于研究时间和区域的线性关系或显着性来实现特征选择,这些关系不能反映从模型中获得的结果。

因此,从实际应用的角度来看,如果对输入变量进行适当的排序和选择,将减少模型的不相关或高度相关的属性和冗余特征,从而改善模型的功能并减少收集不必要数据的需求 。(Cai et al., 2018; Kang and Ryu, 2019).

在目前的文献中,较少的预测ML算法经过训练和测试后将结果与以前的研究进行比较,例如(Adamovic et al., 2017; Johnson et al., 2017; Kannangara et al., 2017).在这些研究中,不同的机器学习技术的真正多功能性和优势或局限性仍然未知。

将各种算法用于训练和预测/或只预测将为模型的功能和局限性提供更多的技术性见解,最终将帮助用户为他们的特定任务选择合适的ML技术。

本文主要目的是为预测越南的城市生活垃圾产生量开发最佳的ML模型。具体目标可以说明如下:

  1. 执行特征评估并选择输入变量(通过递归特征约简)。
  2. 比较不同的ML算法以预测MSW产生。

为了实现这一目标,在这项研究中,使用了从线性,非线性和集成方法衍生的五种ML算法以及具有特征选择,重采样,重处理和调整特征的连续步骤的ANN模型。

监督测试和交叉验证(CV)程序也适用于确定特定MSW数据的最佳模型。

2. ML - based models and applications for waste prediction(partly)

本文分别使用了分类,回归,集成模型和深度学习这四种类型的监督学习算法。

  1. 分类算法适用于分类结果变量,并适用于实值结果变量的回归。
  2. 集成模型是一个模型中几种算法的组合。
  3. 某些算法(例如KNN和SVM)同时使用分类和实值结果变量。

选择算法的主要原因如下:通过监督训练的学习能力,算法处理非线性数据的能力,检测数据集故障的能力,异构输出参数以及处理数字目标变量的能力。

2.1 Linear model(线性模型)

线性模型(即LR,逻辑回归,线性判别分析和线性判别分析)是一种统计方法,同时也是ML算法。

LR是一个线性方程,由一组特定的输入值(x)和该组输入值的预测输出(y)组成。LR和ML很容易解释和理解,但是它们也有一些局限性(即独立分布和正态分布),从而导致输出中的高偏差。

作为线性关系的特征,此方法不适用于建模高度非线性的数据。普通最小二乘线性回归(LM)的目的是发现所观察到的响应与预测的响应之间的平方和误差最低的平面。

对于实际应用,由于简单的基础算法和易于解释的结果,LM是一个有吸引力的模型。 但是,预测变量之间的共线性会导致LM模型误差较大。

2.2 Support vector machine(支持向量机)

SVM学习结合了基于实例的最近邻居学习,使用最近邻居的惰性学习分类和LR模型(Lantz,2019)。

SVM将每个数据项绘制为n维空间中的一个点(n为要素数量),并找到最能将这两个类区分开的超平面(Kuhn和Johnson,2013)。

它可以检测有助于对数据集的新点进行分类的最佳超平面。该算法可用于分类和数字预测目的。内核技巧和功能实际上是使用SVM的工具。

它使用内核技巧来修复非线性输入空间。 以线性可分离的方式,SVM将在正确分类所需类别的约束下确定最佳分割线。 通过这种方式,SVM可以挖掘单独的超平面,并选择具有最大余量的超平面。对于线性不可分的情况,SVM使用不可分离的线确定软边距,然后获得一条称为非线性决策边界的线(即内核技巧)。

SVM擅长解决分类问题,并且更常用于预测离散输出(Theobald,2018)。 它已被用于解决诸如城市固体废弃物预测,废物分类和能源回收等回归问题(Abdallah等,2020)。 此外,支持向量机不太可能导致过度拟合,并且减少了误差和模型尺寸(Li等,2010)。

2.3 Cubist模型树

Cubist模型树是Quinlan(1992)描述的面向预测的回归模型,并基于训练集中最近的邻居进行了其他修正(Quinlan,1993)。该模型使用线性组合进行组合的,如等式1-2所示(Kuhn and Johnson, 2013):
y ^ p a r = a x y ^ k + ( 1 − a ) x y ^ p (1-2) \hat{y}_{par} = ax\hat{y}_k+(1-a)x\hat{y}_p\tag{1-2} y^par=axy^k+(1a)x

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值