梁鑫宇
xinyu.liang@monash.edu
莫纳什大学和OPTIMA
墨尔本,维多利亚州,澳大利亚
布赛·萨伊
buser.say@monash.edu
莫纳什大学
墨尔本,维多利亚州,澳大利亚
摘要
供暖、通风和空调(HVAC)系统约占全球建筑能耗的38%,使其成为最耗能的服务之一。对能效和可持续性的日益重视,以及对提高居住者舒适度的需求,给传统HVAC系统带来了重大挑战。这些系统往往无法动态调整以适应电力市场价格的实时变化或个人舒适度偏好,从而导致能源成本增加和舒适度降低。为此,我们提出了一种带有人工干预(HITL)的人工智能框架,通过结合实时用户反馈和响应波动的电价来优化HVAC性能。与需要预定义占用信息或舒适度水平的传统系统不同,我们的方法基于持续的用户输入进行学习和适应。通过将占用预测模型与强化学习相结合,该系统根据电力市场动态改进操作效率并减少能源成本,从而为需求响应计划做出贡献。通过模拟,我们证明了我们的方法在保持或提升居住者舒适度的同时,与基线方法相比实现了显著的成本削减。这种由反馈驱动的方法确保了个性化舒适控制,无需预定义设置,提供了一种可扩展的解决方案,平衡了个人偏好与经济和环境目标。
CCS概念
- 计算方法论 → \rightarrow → 强化学习;模型开发与分析; ⋅ \cdot ⋅ 应用计算 → \rightarrow → 物理科学与工程。
关键词
供暖、通风和空调(HVAC),人工智能(AI),强化学习,带有人工干预(HITL)
Frits de Nijs
frits.nijs@monash.edu
莫纳什大学
墨尔本,维多利亚州,澳大利亚
王浩*
hao.wang2@monash.edu
莫纳什大学
墨尔本,维多利亚州,澳大利亚
ACM参考格式:
Xinyu Liang, Frits de Nijs, Buser Say, 和 Hao Wang. 2025. 带有人工干预的HVAC管理人工智能增强舒适性和能效。在第16届ACM未来和可持续能源系统国际会议 (E-ENERGY '25),2025年6月17-20日,荷兰鹿特丹。ACM,纽约,NY,美国,13页。 https://doi.org/10.1145/3679240.3734587
1 引言
供暖、通风和空调(HVAC)系统是各种环境中提供热舒适的关键,但它们也是全球范围内最大的能源消费者之一,占各行业建筑物总能耗的大约38% [15]。随着全球能源需求的增长和可持续性倡议的重要性提升,优化HVAC系统已成为减少运营成本和环境影响的优先事项 [16, 38]。为解决这一问题,集成实时能源和环境动态以及居住者舒适度的先进控制机制对于HVAC系统至关重要。本文探讨了能够动态平衡能源效率和用户舒适的智能控制机制。
除了提供舒适度外,HVAC系统的能源效率也因其高能耗而至关重要。传统的HVAC系统通常依赖于固定设置,不能考虑不同的舒适需求或占用情况的变化,从而导致效率低下。这些限制导致更高的运营成本和降低的居住者舒适度 [37, 41]。鉴于传统HVAC系统无法适应波动的能源价格、电网动态和多样化的居住者舒适需求,智能能源管理系统(IEMS)作为一种有前景的解决方案出现。IEMS旨在通过整合实时数据和控制机制,在维持舒适室内环境的同时优化能源消耗。根据控制策略,IEMS通常可以分为两种主要方法:直接控制和间接控制。
IEMS中的间接控制系统通过建议而非直接调整HVAC设置来影响用户行为。这些系统监控环境条件、能源使用模式和局部可再生能源(如光伏)生成情况,向用户提供反馈和建议,鼓励他们采用更节能的习惯 [3, 21, 26, 30, 31]。其主要优势在于促进长期行为改变,帮助用户变得更环保,同时具有成本效益和适应性强的特点。
*通讯作者。
请使用非acm选项或ACM Engage类以启用CC许可证。
本作品受Creative Commons Attribution 4.0 International License许可。E-ENERGY '25,2025年6月17-20日,荷兰鹿特丹
(c)2025 版权归作者所有。
ACM ISBN 979-8-4007-1125-1/2025/06
https://doi.org/10.1145/3679240.3734587
适用于各种HVAC系统 [3, 26]。然而,这些系统依赖于用户的参与来手动调整设置,这可能导致与自动化直接控制系统相比不一致的节能效果 [30]。手动过程还可能破坏日常习惯,限制对舒适度的控制,降低整体有效性 [26]。
相比之下,直接控制系统自动使用实时传感器数据调整HVAC设置,包括温度、占用率,有时还包括电价等因素。这些系统自主地在无人占用期间减少加热或冷却,并根据需要增加输出以维持设定点 $[12,17,24,27]$。尽管有效减少了能源消耗,据报道,即使安装了设备,也只有 $19.4 \%$ 的居住者积极使用可编程恒温器(即具备安排操作并在空置期间放松温度设定点的功能)[35]。其他研究表明,尽管依赖复杂的热力学模型,仍有 $15-28 \%$ 的居住者对室内条件不满意,即使他们可以控制温度设定点 [4, 22]。为了解决传统直接控制系统仅依赖刚性设定点的局限性,这些设定点往往无法反映居住者的实时偏好,开发了更先进的个体舒适偏好模型。在这些高级舒适模型中,通过环境传感器推断用户偏好,这些传感器跟踪诸如温度和湿度、衣物保温性甚至生理指标(如皮肤温度和心率)等环境因素 $[1,11,18,20,29,39]$。虽然这些高级模型提高了居住者的舒适度,但也引入了额外的挑战。部署传感器和创建准确的舒适模型可能费用高昂,且维护这些系统通常需要用户或楼宇操作员具备一定的专业知识。理解系统功能并做出知情调整需要熟悉底层技术,这可能会限制此类系统在大型或多样化环境中的广泛采用。
最近针对HVAC系统的能源管理进展通过结合直接和间接控制IEMS优点的混合策略解决了这些挑战。这些方法旨在克服复杂预定义热力和舒适模型的局限性,同时避免频繁的手动用户干预。Shuvo和Yilmaz [34] 开发了一个家庭能源推荐系统(HERS),该系统应用深度强化学习(RL)管理包括HVAC在内的智能家电的能源消耗。他们的HERS通过反馈和活动数据动态学习居住者的偏好,并相应调整设备操作。该系统无需依赖复杂预定义模型即可学习和自动适应,灵活高效地提供舒适。同时,它逐渐减轻了用户手动调整设置的负担。同样,Chen等人 [10] 使用元学习和基于模型的离线RL开发了一个HITL HVAC系统。他们的系统专注于通过反馈高效学习居住者热偏好,避免了与环境的持续实时互动,从而提高了RL应用于HVAC控制的实用性。
这些研究提供了有效的解决方案,能够在不依赖复杂模型或不需要频繁用户干预的情况下学习居住者偏好并实现节能。然而,
它们主要集中在优化内部因素如居住者舒适度和能源消耗,而没有充分考虑外部影响如批发市场电价波动和电网动态。随着太阳能和风能等可再生能源在能源市场的渗透不断增加,其间歇性性质引入了更大的电网变异性,受天气条件和一天中的时间驱动 [14, 23]。这种变异性导致供需不平衡和电价波动 [5, 8]。因此,HVAC系统必须动态响应这些市场条件和能源可用性的实时变化,以保持成本效益并减轻电网压力。缺乏这种适应能力的传统系统错过了在供应过剩时期降低成本的机会,也无法支持对电网稳定性至关重要的需求响应工作。将实时市场动态集成到HVAC控制中对于在日益可再生驱动的能源格局中平衡居住者舒适度与经济和环境效率至关重要。
本研究建立在这些先前系统的优点之上,开发了一种实时自适应HVAC控制系统,通过结合居住者舒适偏好和动态市场信号来优化能源成本。所提出的系统旨在通过参与需求响应努力来提高电网稳定性,并在高峰期调整HVAC操作,同时保持高可扩展性和适应性以适应各种场景。我们的主要贡献可以概括如下。
(1) 我们提出了一种简化的HITL AI框架用于HVAC控制,避免了现有预定义热舒适模型的复杂性,同时仍能有效地平衡能源成本和居住者舒适度。
(2) 我们的系统通过连续适应实时反馈信号自动学习居住者的热偏好。这减少了手动配置或大量用户交互的需求。
(3) 我们将实时电力市场数据纳入系统,使HVAC操作能够根据波动的批发能源价格进行动态调整,从而提高成本效率和电网响应能力。
(4) 我们的实验结果表明,与基于规则的策略相比,所提出的框架在保持或提升居住者舒适度的同时显著改善了能源成本节约。所提出的框架在不完美信息和学习舒适偏好的实际条件下运行时,其性能接近通过完美预测建立的理论上限。
2 系统模型和公式化
本节介绍了我们的人工干预循环(HITL)系统模型,该模型将人类反馈直接集成到决策控制器中。图1展示了系统的高层次概述。通过结合实时用户输入以及环境和操作数据,系统动态适应居住者偏好,同时平衡能源效率。决策问题被公式化为马尔可夫决策过程(MDP),它
图1:HITL能源管理系统概述。
使系统能够处理占用和外部因素(如电价)的不确定性和波动。
2.1 HITL HVAC控制问题的MDP模型
HVAC控制系统的优化被框架为一个MDP,该MDP集成了HITL方法,以动态平衡能源效率和居住者舒适度。这种方法的一个关键特征是它能够从持续的人类反馈中学习,使系统随着时间的推移逐步减少对人工干预的需求。
MDP [28] 由元组
(
S
,
A
,
P
,
R
,
γ
)
(S, A, P, R, \gamma)
(S,A,P,R,γ) 定义,其中
S
S
S 是状态空间,表示系统的所有可能状态,
A
A
A 是动作空间,定义系统可以采取的所有可能动作,
P
:
S
×
A
→
Pr
(
S
′
∣
S
,
A
)
P: S \times A \rightarrow \operatorname{Pr}\left(S^{\prime} \mid S, A\right)
P:S×A→Pr(S′∣S,A) 是状态转移概率函数,描述在特定动作下从一个状态转移到另一个状态的概率,
R
:
S
×
A
→
R
R: S \times A \rightarrow \mathbb{R}
R:S×A→R 是奖励函数,量化每个状态-动作对的即时成本或收益,
γ
∈
[
0
,
1
]
\gamma \in[0,1]
γ∈[0,1] 是折扣因子,确定即时奖励与未来奖励的相对重要性。
在这个HITL框架中,来自居住者的实时反馈对于告知系统的决策至关重要。任何时间
t
t
t的系统状态由状态向量
s
t
∈
S
s_{t} \in S
st∈S表示,该向量捕捉影响HVAC控制决策的相关环境、操作和反馈变量。在时间
t
t
t采取的动作
a
t
∈
A
a_{t} \in A
at∈A 根据状态转移动力学
P
(
s
t
+
1
∣
s
t
,
a
t
)
P\left(s_{t+1} \mid s_{t}, a_{t}\right)
P(st+1∣st,at) 影响后续状态
s
t
+
1
s_{t+1}
st+1。目标是找到一个高效的策略
π
∗
\pi^{*}
π∗,最大化预期累计奖励,考虑到能源效率和居住者舒适度,减少手动调整:
π
∗
=
arg
max
π
′
E
[
∑
t
=
0
∞
γ
t
R
(
s
t
,
a
t
)
∣
s
t
+
1
∼
P
(
s
t
,
a
t
)
,
a
t
∼
π
′
(
a
t
∣
s
t
)
]
\pi^{*}=\arg \max _{\pi^{\prime}} \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^{t} R\left(s_{t}, a_{t}\right) \mid s_{t+1} \sim P\left(s_{t}, a_{t}\right), a_{t} \sim \pi^{\prime}\left(a_{t} \mid s_{t}\right)\right]
π∗=argmaxπ′E[∑t=0∞γtR(st,at)∣st+1∼P(st,at),at∼π′(at∣st)],
其中
π
′
(
a
t
∣
s
t
)
\pi^{\prime}\left(a_{t} \mid s_{t}\right)
π′(at∣st) 是决定在状态
s
t
s_{t}
st 下采取动作
a
t
a_{t}
at 的概率的策略。期望值取自由策略
π
′
\pi^{\prime}
π′ 诱导的状态-动作轨迹分布。
HITL MDP框架捕捉了环境和系统行为的随机性质,例如波动的室外温度、变化的占用模式、最终用户偏好和实时批发电价。状态转移动力学由空间的热属性和HVAC系统的操作特性决定,将在随后的小节中讨论。
2.2 状态空间表示
MDP的状态空间
S
S
S 包括表征系统环境、操作状态和任何给定时间
t
t
t 的居住者反馈的所有变量。在时间步长
t
t
t 的状态
s
t
∈
S
s_{t} \in S
st∈S 表示为一组传感器读数的向量,共同描述所有影响HVAC控制系统决策的因素。本节详细描述每个状态变量并提供定义状态空间的数学公式。
2.2.1 室内温度
(
T
i
in
)
\left(T_{i}^{\text {in }}\right)
(Tiin ). 室内温度,
T
i
in
T_{i}^{\text {in }}
Tiin , 表示时间
t
t
t 的受控环境温度。这是影响居住者舒适度的关键变量,可通过其对用户反馈的影响间接影响系统的奖励。当室内温度显著偏离舒适范围时,居住者更有可能提供覆盖系统决策的反馈。
2.2.2 室外温度
(
T
i
out
)
\left(T_{i}^{\text {out }}\right)
(Tiout ). 室外温度,
T
i
out
T_{i}^{\text {out }}
Tiout , 作为影响室内温度和HVAC系统冷却或加热决策的外部环境输入。室外温度的波动会影响能源消耗,因为系统必须调整其操作以抵消这些条件并维持舒适的室内环境。
2.2.3 时间
(
τ
)
(\tau)
(τ). 时间,
τ
t
\tau_{t}
τt, 是捕获能量使用和占用的时序模式的变量。许多方面,包括占用状态、室外温度趋势和批发电力市场费率都遵循每日周期。为了模拟这种周期性,时间使用正弦和余弦函数进行周期变换:
τ t = ( sin ( 2 π t T cycle ) , cos ( 2 π t T cycle ) ) \tau_{t}=\left(\sin \left(\frac{2 \pi t}{T^{\text {cycle }}}\right), \cos \left(\frac{2 \pi t}{T^{\text {cycle }}}\right)\right) τt=(sin(Tcycle 2πt),cos(Tcycle 2πt))
其中
T
cycle
T^{\text {cycle }}
Tcycle 表示一个周期内的总时间步数,取决于所用数据的分辨率。这种通用编码允许模型在不同分辨率下表示时序模式,并预测与每个周期内特定时间相关联的能量需求和占用变化。
2.2.4 预测室外温度
(
T
^
t
out
)
\left(\hat{\mathbf{T}}_{t}^{\text {out }}\right)
(T^tout ). 预测室外温度,
T
^
t
out
\hat{\mathbf{T}}_{t}^{\text {out }}
T^tout , 提供关于未来室外条件的预见信息。此向量包含即将到来的时间步骤的预测温度,使系统能够做出关于未来HVAC操作的更明智决策。预测室外温度向量定义为:
T ^ t out = ( T ^ 1 out , T ^ 2 out , … , T ^ h ′ out ) \hat{\mathbf{T}}_{t}^{\text {out }}=\left(\hat{T}_{1}^{\text {out }}, \hat{T}_{2}^{\text {out }}, \ldots, \hat{T}_{h^{\prime}}^{\text {out }}\right) T^tout =(T^1out ,T^2out ,…,T^h′out )
其中
h
T
h^{T}
hT 表示预测范围,指示预测的室外温度涉及的未来时间步数。通过在状态空间中包括
T
^
t
out
\hat{\mathbf{T}}_{t}^{\text {out }}
T^tout ,系统可以规划考虑当前和预期未来环境条件的行动,从而优化总能源成本。
2.2.5 占用信息
(
O
t
)
\left(O_{t}\right)
(Ot). 这个指标显示在时间
t
t
t 是否有人占用空间。这个二进制变量如果空间被占用则取值为1,否则为0。占用显著影响能源消耗和舒适偏好,因为HVAC系统的操作会根据是否有居住者在场来优先考虑舒适度。将占用信息包含在状态空间中允许MDP模型基于实时占用数据做出上下文感知决策。
2.2.6 预测占用信息
(
O
^
t
)
\left(\hat{\mathbf{O}}_{t}\right)
(O^t). 预测占用信息,
O
^
t
\hat{\mathbf{O}}_{t}
O^t, 表示未来时间步骤上的预测占用概率,为决策提供关键见解。与二进制占用信息
O
t
O_{t}
Ot 不同,
O
^
t
\hat{\mathbf{O}}_{t}
O^t 由占用预测器生成。这个预测器预测未来占用的可能性,使系统能够提前应对使用模式的变化。预测占用向量定义为:
O ^ t = ( O ^ 1 , O ^ 2 , … , O ^ h O ) \hat{\mathbf{O}}_{t}=\left(\hat{O}_{1}, \hat{O}_{2}, \ldots, \hat{O}_{h^{O}}\right) O^t=(O^1,O^2,…,O^hO)
其中
h
O
h^{O}
hO 表示占用的预测范围。通过在状态空间中包括
O
^
t
\hat{\mathbf{O}}_{t}
O^t,模型可以提前预测舒适和能源需求的变化,根据预期占用模式主动调整HVAC控制策略。
2.2.7 反馈缓冲区
(
f
t
)
\left(\mathbf{f}_{t}\right)
(ft). 反馈缓冲区,
f
t
\mathbf{f}_{t}
ft, 是一个记录居住者覆盖系统自动化决策实例的向量,提供在定义范围内关于他们舒适偏好的直接反馈。反馈缓冲区定义为:
f t = ( f t − 1 , f t − 2 , … , f t − h ′ ) \mathbf{f}_{t}=\left(\mathrm{f}_{t-1}, \mathrm{f}_{t-2}, \ldots, \mathrm{f}_{t-h^{\prime}}\right) ft=(ft−1,ft−2,…,ft−h′)
其中
h
f
h^{\mathrm{f}}
hf 表示反馈范围,指示存储居住者覆盖的历史时间步数。缓冲区中的每个元素,
f
t
\mathrm{f}_{t}
ft, 可以取三个可能值之一:
f
t
∈
{
−
1
,
0
,
1
}
\mathrm{f}_{t} \in\{-1,0,1\}
ft∈{−1,0,1}. 值为
f
t
=
1
\mathrm{f}_{t}=1
ft=1 表示居住者覆盖打开空调,
f
t
=
0
\mathrm{f}_{t}=0
ft=0 表示居住者未进行覆盖,
f
t
=
−
1
\mathrm{f}_{t}=-1
ft=−1 表示居住者覆盖关闭空调。这种公式化允许反馈缓冲区捕捉覆盖的方向和发生,从而反映居住者随时间的舒适偏好。在状态空间中包括
f
t
\mathbf{f}_{t}
ft 允许系统在未来的HVAC操作决策中考虑最近的居住者覆盖。此信息
对于防止系统反复要求居住者覆盖,从而提高用户满意度和减少手动干预至关重要。
2.2.8 批发市场价格
(
ρ
t
)
\left(\rho_{t}\right)
(ρt). 批发市场价格,
ρ
t
\rho_{t}
ρt, 反映了时间
t
t
t 市场上当前的电价。这个变量不仅代表即时的能源消费成本,还作为电网供需动态的指标。高价可能意味着高需求或低供应条件,影响HVAC系统的运营成本。通过将批发市场价格纳入状态空间,模型可以在电网稳定性和定价信号的约束下优化空调的运行以最小化能源成本。
2.2.9 预测批发市场价格
(
ρ
^
t
)
\left(\hat{\boldsymbol{\rho}}_{t}\right)
(ρ^t). 预测批发市场价格,
ρ
^
t
\hat{\boldsymbol{\rho}}_{t}
ρ^t, 提供关于未来电价的预测信息。此向量包含即将到来的时间步骤的预测市场费率,这对于优化HVAC控制策略中的能源使用和成本至关重要。预测批发市场价格向量定义为:
ρ ^ t = ( ρ ^ 1 , ρ ^ 2 , … , ρ ^ h o ) \hat{\boldsymbol{\rho}}_{t}=\left(\hat{\rho}_{1}, \hat{\rho}_{2}, \ldots, \hat{\rho}_{h^{o}}\right) ρ^t=(ρ^1,ρ^2,…,ρ^ho)
其中 h o h^{o} ho 表示市场费率的预测范围。通过将 ρ ^ t \hat{\boldsymbol{\rho}}_{t} ρ^t 纳入状态空间,模型可以计划考虑当前和预期未来电价的行动,从而实现更具成本效益和能源效率的决策。根据其组成部分,时间 t t t 的状态向量定义为:
s t = ( T t in , T t out , τ t , T ^ t out , O t , O ^ t , f t , ρ t , ρ ^ t ) s_{t}=\left(T_{t}^{\text {in }}, T_{t}^{\text {out }}, \tau_{t}, \hat{\mathbf{T}}_{t}^{\text {out }}, O_{t}, \hat{\mathbf{O}}_{t}, \mathbf{f}_{t}, \rho_{t}, \hat{\boldsymbol{\rho}}_{t}\right) st=(Ttin ,Ttout ,τt,T^tout ,Ot,O^t,ft,ρt,ρ^t)
这种公式化捕捉了环境和系统动态的全面快照,为系统优化HVAC控制策略提供了坚实的基础,平衡了能源效率和居住者舒适度。
2.3 动作空间定义
动作空间 A A A 由我们的HVAC控制系统可以采取的可能动作组成。我们假设加热或冷却模式由居住者预先设定,这意味着控制器不会动态切换方向。相反,控制重点在于根据预设方向调度HVAC何时开启或关闭。因此,动作空间为:
A = { 0 , 1 } A=\{0,1\} A={0,1}
其中1代表“HVAC开”,意味着系统正在积极运行,0代表“HVAC关”。
2.4 状态转移动力学
在我们的HVAC控制MDP模型中,状态转移动力学描述了每个状态变量如何基于当前状态和选定动作随时间演变。转移函数
P
(
s
t
+
1
∣
P\left(s_{t+1} \mid\right.
P(st+1∣
s
t
,
a
t
)
\left.s_{t}, a_{t}\right)
st,at) 捕捉这些动力学。以下,我们概述每个状态变量的转移动力学:
2.4.1 室内温度转移。我们采用一种热模型[25] 来确定下一个室内温度
T
t
+
1
in
T_{t+1}^{\text {in }}
Tt+1in ,基于三个变量:当前室内温度
T
t
in
T_{t}^{\text {in }}
Ttin ,室外温度
T
t
out
T_{t}^{\text {out }}
Ttout ,以及时间
t
t
t 的受控动作
a
t
c
a_{t}^{\mathrm{c}}
atc。它定义为
T
t
+
1
in
=
α
T
t
in
+
(
1
−
α
)
(
T
t
out
+
p
⋅
a
t
c
⋅
P
)
T_{t+1}^{\text {in }}=\alpha T_{t}^{\text {in }}+(1-\alpha)\left(T_{t}^{\text {out }}+p \cdot a_{t}^{\mathrm{c}} \cdot P\right)
Tt+1in =αTtin +(1−α)(Ttout +p⋅atc⋅P)
其中参数
P
P
P 表示空调的功率效应,
p
∈
p \in
p∈
{
−
1
,
1
}
\{-1,1\}
{−1,1} 表示HVAC是否处于加热或冷却模式。参数
α
\alpha
α 是一个衰减因子,决定了室内温度对变化的响应速度,给出为:
α = e − β T n R ⋅ η C \alpha=e^{-\frac{\beta T}{n^{R} \cdot \eta^{C}}} α=e−nR⋅ηCβT
其中 Δ t \Delta t Δt 是小时为单位的时间间隔, η R \eta^{R} ηR 是空间的热阻抗,单位为 ∘ C / k W { }^{\circ} \mathrm{C} / \mathrm{kW} ∘C/kW, η C \eta^{C} ηC 是空间的热容,单位为 k W h / ∘ C \mathrm{kWh} /{ }^{\circ} \mathrm{C} kWh/∘C。
2.4.2 反馈模拟和反馈缓冲区更新。
反馈模拟模仿居住者因不适而覆盖系统的情况。此过程更新反馈缓冲区
f
f
\mathbf{f}_{f}
ff,存储最近的模拟反馈信号。与其他系统使用的预设设定点不同,在我们的框架中这些反馈信号对于指导代理的决策制定至关重要。
在每个时间步骤,反馈概率
p
f
f
p_{f}^{f}
pff 被计算以确定居住者是否会因不适覆盖当前系统。此概率受到当前室内温度
T
i
in
T_{i}^{\text {in }}
Tiin 与设定舒适温度
T
set
T^{\text {set }}
Tset 差异的影响。反馈概率计算为:
p f f = min ( ( T f in − T set θ range ) 2 , p max ) p_{f}^{f}=\min \left(\left(\frac{T_{f}^{\text {in }}-T^{\text {set }}}{\theta^{\text {range }}}\right)^{2}, p^{\max }\right) pff=min (θrange Tfin −Tset )2,pmax
其中
T
set
T^{\text {set }}
Tset 是设定的舒适温度,
θ
range
\theta^{\text {range }}
θrange 是舒适范围值,
p
max
p^{\max }
pmax 是最大概率上限,可以设置为代表居住者响应可能性的最大水平。此可能性考虑了由于各种实际限制,居住者可能在显著不适情况下也不提供反馈的情景。温度偏差与不适概率之间的二次关系反映了人类热舒适感知的非线性本质,其中不适程度随着温度偏离首选设定点进一步增加而迅速加剧
[
9
,
13
,
40
]
[9,13,40]
[9,13,40]。我们的方法通过将不适与反馈可能性联系起来扩展了这些标准方法,提供了一个建模居住者响应行为的概率框架。
一旦确定反馈概率,新反馈
f
f
\mathrm{f}_{f}
ff 将基于维持舒适温度的预期动作
a
t
∗
a_{t}^{*}
at∗ 是否不同于系统选择的动作
a
f
a_{f}
af 并且居住者在场时进行模拟。维持舒适温度的预期动作
a
∗
a^{*}
a∗ 定义为:
a t ∗ = { 1 , 如果 ( ( T t in > T set ∧ T t out > T set ) ∨ ( T t in < T set ∧ T t out < T set ) 0 , 否则。 a_{t}^{*}=\left\{\begin{array}{cc} 1, & \text { 如果 } \quad\left(\left(T_{t}^{\text {in }}>T^{\text {set }} \wedge T_{t}^{\text {out }}>T^{\text {set }}\right)\right. \\ & \vee\left(T_{t}^{\text {in }}<T^{\text {set }} \wedge T_{t}^{\text {out }}<T^{\text {set }}\right) \\ 0, & \text { 否则。 } \end{array}\right. at∗=⎩ ⎨ ⎧1,0, 如果 ((Ttin >Tset ∧Ttout >Tset )∨(Ttin <Tset ∧Ttout <Tset ) 否则。
新反馈 f f \mathrm{f}_{f} ff 则模拟为:
f f = { 1 , 如果 ( a t ∗ = 1 ) ∧ ( O t = 1 ) ∧ ( a t ∗ ≠ a t ) ∧ ( X t f = 1 ) − 1 , 如果 ( a t ∗ = 0 ) ∧ ( O t = 1 ) ∧ ( a t ∗ ≠ a t ) ∧ ( X t f = 1 ) 0 , 否则 \mathrm{f}_{f}=\left\{\begin{array}{ll} 1, & \text { 如果 }\left(a_{t}^{*}=1\right) \wedge\left(O_{t}=1\right) \wedge\left(a_{t}^{*} \neq a_{t}\right) \wedge\left(X_{t}^{\mathrm{f}}=1\right) \\ -1, & \text { 如果 }\left(a_{t}^{*}=0\right) \wedge\left(O_{t}=1\right) \wedge\left(a_{t}^{*} \neq a_{t}\right) \wedge\left(X_{t}^{\mathrm{f}}=1\right) \\ 0, & \text { 否则 } \end{array}\right. ff=⎩ ⎨ ⎧1,−1,0, 如果 (at∗=1)∧(Ot=1)∧(at∗=at)∧(Xtf=1) 如果 (at∗=0)∧(Ot=1)∧(at∗=at)∧(Xtf=1) 否则
为了决定是否生成反馈,我们引入了二进制变量 X f X^{\mathrm{f}} Xf,它从伯努利分布中采样,
X t f ∼ Bernoulli ( p t f ) X_{t}^{\mathrm{f}} \sim \operatorname{Bernoulli}\left(p_{t}^{\mathrm{f}}\right) Xtf∼Bernoulli(ptf)
这里,
f
f
\mathrm{f}_{f}
ff 在值为1时表示用户覆盖打开HVAC,当维持舒适温度的预期动作
a
t
∗
=
1
a_{t}^{*}=1
at∗=1 与系统的选定动作
a
t
a_{t}
at 不同时触发。这发生在居住者在场
(
O
t
=
1
)
\left(O_{t}=1\right)
(Ot=1) 且反馈条件
X
f
=
1
X^{\mathrm{f}}=1
Xf=1 被触发时。反之,
f
f
\mathrm{f}_{f}
ff 在值为-1时表示用户覆盖关闭HVAC,当预期动作是
a
t
∗
=
0
a_{t}^{*}=0
at∗=0 且满足类似条件时触发。如果不满足这些条件(即系统的动作与维持舒适的预期动作一致,没有居住者,或反馈条件未被触发),则不生成反馈,且
f
f
=
0
\mathrm{f}_{f}=0
ff=0。
生成新的反馈值后,反馈缓冲区得到更新。反馈缓冲区
f
f
\mathbf{f}_{f}
ff 具有固定的长度
h
f
=
16
h^{\mathrm{f}}=16
hf=16,对应4小时,每个时间步骤设置为15分钟。在每个时间步骤,缓冲区通过插入新的反馈在前面并移动其余部分来更新,定义为:
f f + 1 = [ f f , f f − 1 , f f − 2 , … , f f + 1 − h f ] \mathbf{f}_{f+1}=\left[\mathrm{f}_{f}, \mathrm{f}_{f-1}, \mathrm{f}_{f-2}, \ldots, \mathrm{f}_{f+1-h^{\mathrm{f}}}\right] ff+1=[ff,ff−1,ff−2,…,ff+1−hf]
该模拟衡量了代理利用反馈适应和优化控制策略的能力,即使在对居住者偏好了解有限的情况下也是如此。通过包含模拟覆盖,代理学会动态调整动作,平衡舒适和能源效率。覆盖频率作为不适的关键指标,有助于评估在不确定条件下复杂现实世界情景中的性能。
2.4.3 从动作到控制决策。
在模拟和更新反馈之后,温度转移方程(8)中使用的最终控制由系统的动作 a t a_{t} at 与新的反馈值 f f \mathrm{f}_{f} ff 结合确定。最终的受控动作 a t ∗ a_{t}^{*} at∗ 将反馈纳入其中,以动态调整控制策略,确保系统的决策更好地与模拟的居住者偏好一致。
a t ∗ = { 1 , 如果 ( a t = 1 ∧ f t = 0 ) ∨ ( a t = 0 ∧ f t = 1 ) 0 , 否则。 a_{t}^{*}=\left\{\begin{array}{ll} 1, & \text { 如果 }\left(a_{t}=1 \wedge \mathrm{f}_{t}=0\right) \vee\left(a_{t}=0 \wedge \mathrm{f}_{t}=1\right) \\ 0, & \text { 否则。 } \end{array}\right. at∗={1,0, 如果 (at=1∧ft=0)∨(at=0∧ft=1) 否则。
反馈机制通过两个不同的过程运作:即时环境控制和政策适应。当居住者通过覆盖提供反馈时,它会在当前时间步骤内立即影响HVAC操作,类似于现实生活中的直接恒温器调整。然而,控制政策的学习和适应是通过反馈缓冲区进行的,这些信号从时间步骤
t
+
1
t+1
t+1 开始被纳入决策过程。这种分离确保了响应的环境控制,同时通过反馈缓冲区机制保持结构化的政策学习。
这种逻辑使系统能够集成模拟反馈,并动态适应居住者的不适,同时提高能源效率和舒适度。通过响应反馈,模型确保动作保持灵活并适应偏好变化。
2.4.4 基于外部数据和内部预测器的状态变量。
我们的MDP模型的状态变量从外部数据源和内部预测器更新。外部变量,如来自传感器或GPS信号的占用信息
(
O
t
)
\left(O_{t}\right)
(Ot)、室外温度
(
T
i
out
)
\left(T_{i}^{\text {out }}\right)
(Tiout )、预测室外温度
(
T
^
i
out
)
\left(\hat{\mathbf{T}}_{i}^{\text {out }}\right)
(T^iout )、批发市场价格
(
R
t
)
\left(R_{t}\right)
(Rt)和预测市场价格
(
R
^
t
)
\left(\hat{\mathbf{R}}_{t}\right)
(R^t),可以从天气预报和市场预测等已建立的服务中获取
这些可靠、实时的输入允许系统以最小的复杂性优化能源使用并保持舒适。
其他变量,如预测的占用信息
(
O
^
t
)
\left(\hat{O}_{t}\right)
(O^t),需要内部预测,因为每个家庭独特的占用模式。内部预测器使用历史数据和时间作为上下文因素来估计给定范围内的未来占用概率。这种定制方法捕捉占用行为,使系统能够做出主动性决策——例如,在未来占用不确定和动态时进行预热或预冷。
2.5 奖励设计
在所提出的HVAC系统中,奖励函数
R
(
s
,
a
,
s
′
)
R\left(s, a, s^{\prime}\right)
R(s,a,s′)利用了HITL方法,其中实时居住者反馈直接通知操作决策。与具有静态设定点的传统方法不同,这种奖励结构动态整合用户输入以计算不适成本。居住者干预及其频率反映在不适成本中,而能源成本则与实时电价挂钩。这种方法使系统能够适应用户偏好,减少手动干预的需要和频率,同时优化舒适度和能源效率。
2.5.1 不适成本计算。奖励中的不适成本部分由居住者对其舒适度水平的反馈决定。与依赖预定义温度设定点并测量与这些设定点偏差的传统方法不同,我们的模型基于直接反映居住者舒适或不适的反馈动态调整。不适成本
C
discomfort
C^{\text {discomfort }}
Cdiscomfort 使用反馈缓冲区中存储的近期反馈值的加权和计算:
C t discomfort = { ∑ i = 1 h t w i discomfort ⋅ ∣ f t − i ∣ , 如果 ( f t = 1 ) ∨ ( f t = − 1 ) − ϵ , 如果 ( f t = 0 ) ∧ ( O t = 1 ) 0 , 否则 C_{t}^{\text {discomfort }}=\left\{\begin{array}{ll} \sum_{i=1}^{h^{t}} w_{i}^{\text {discomfort }} \cdot\left|f_{t-i}\right|, & \text { 如果 }\left(f_{t}=1\right) \vee\left(f_{t}=-1\right) \\ -\epsilon, & \text { 如果 }\left(f_{t}=0\right) \wedge\left(O_{t}=1\right) \\ 0, & \text { 否则 } \end{array}\right. Ctdiscomfort =⎩ ⎨ ⎧∑i=1htwidiscomfort ⋅∣ft−i∣,−ϵ,0, 如果 (ft=1)∨(ft=−1) 如果 (ft=0)∧(Ot=1) 否则
其中 w i discomfort w_{i}^{\text {discomfort }} widiscomfort 是反馈缓冲区中每个时间步反馈条目的权重,公式为:
w i discomfort = ϵ − e t h t w_{i}^{\text {discomfort }}=\epsilon-e^{\frac{t}{h^{t}}} widiscomfort =ϵ−ehtt
不适权重
w
i
discomfort
w_{i}^{\text {discomfort }}
widiscomfort 设计为使较近的反馈受到更大的惩罚。这种加权方案阻止频繁的用户干预,因为高干预频率表明不适更严重,系统未能维持令人满意的条件。通过对较近的反馈施加更重的惩罚,模型被激励学习和调整其控制策略,以防止居住者重复覆盖。如果空间被占用
(
O
t
=
1
)
\left(O_{t}=1\right)
(Ot=1)但未收到反馈
(
f
t
=
0
)
\left(f_{t}=0\right)
(ft=0),则应用一个小的负值
−
ϵ
-\epsilon
−ϵ。这鼓励模型继续其当前动作,因为缺少反馈表明无需立即更改。这种方法促进稳定性,防止不必要的调整,这些调整可能导致不适或能源使用效率低下。否则,当空间未被占用时,不适成本设置为零,反映在没有居住者在场的情况下维持舒适不是优先事项。这种动态不适成本计算方法确保
代理通过直接响应居住者反馈和最小化高频干预,有效平衡能源效率和居住者舒适度。
2.5.2 能源成本计算。能源成本
C
energy
C_{\text {energy }}
Cenergy 是HVAC单元功耗和批发市场价格的函数。它计算为:
C t energy = a t c ⋅ P HVAC ⋅ Δ t ⋅ ρ t C_{t}^{\text {energy }}=a_{t}^{c} \cdot P^{\text {HVAC }} \cdot \Delta t \cdot \rho_{t} Ctenergy =atc⋅PHVAC ⋅Δt⋅ρt
其中我们将HVAC运行时的功耗设置为
P
HVAC
=
3.5
k
W
,
Δ
t
=
0.25
P^{\text {HVAC }}=3.5 \mathrm{~kW}, \Delta t=0.25
PHVAC =3.5 kW,Δt=0.25小时(即15分钟时间步长),
ρ
t
\rho_{t}
ρt是当前批发市场价格。这种公式确保模型考虑运行HVAC的操作成本和全天变化的电价,反映真实的经济因素。
2.5.3 总成本和奖励计算。总成本
C
t
total
C_{t}^{\text {total }}
Cttotal 结合了不适和能源成本,通过参数
β
\beta
β加权平衡舒适与能源效率的重要性:
C t total = β × C T discomfort + ( 1 − β ) × C t energy C_{t}^{\text {total }}=\beta \times C_{T}^{\text {discomfort }}+(1-\beta) \times C_{t}^{\text {energy }} Cttotal =β×CTdiscomfort +(1−β)×Ctenergy
其中
β
\beta
β是一个可调参数,确定不适在总成本计算中的相对权重。较高的
β
\beta
β更注重减少不适,而较低的
β
\beta
β优先考虑能源成本节省。
奖励然后计算为总成本的负值:
r t = − C t total r_{t}=-C_{t}^{\text {total }} rt=−Cttotal
3 解决方案方法
本节概述了用于开发和优化在MDP框架内平衡能源效率和居住者舒适度的控制策略的方法。所提出的方法集成了预测占用信息的预测模型,并应用基于RL的优化技术学习有效的控制策略。首先,我们描述了占用预测模型的集成,该模型基于历史数据和上下文因素生成未来的占用状态。接下来解释了近端策略优化(PPO)算法[32],该算法用于优化控制策略。PPO算法使代理能够做出减少能源消耗的决策,同时动态响应居住者反馈以维持舒适。这些组件一起提供了一个全面的框架,用于管理具有不确定占用模式的动态环境中的能源使用。
3.1 占用预测模型集成
准确预测未来的占用对于在MDP框架内优化控制策略至关重要,因为占用模式显著影响能源消耗和舒适度水平。与可以从外部预测服务可靠获得的天气和市场数据不同,占用信息高度特定于每个建筑及其居住者。因此,开发了一个内部预测模型,基于每个时间步
t
t
t的历史数据和时间信息来估计未来的占用概率。
所提出的占用预测模型采用两层双向长短期记忆(LSTM)网络来捕捉占用模式中的短期和长期依赖关系。在每个时间步
t
t
t,模型利用包括当前时间步在内的过去占用信息。过去的占用向量表示为:
O
t
p
=
[
O
t
−
h
p
,
O
t
−
h
p
+
1
,
…
,
O
t
]
h
t
]
\mathbf{O}_{t}^{\mathrm{p}}=\left[O_{t-h^{\mathrm{p}}}, O_{t-h^{\mathrm{p}}+1}, \ldots, O_{t}\right]ht]
Otp=[Ot−hp,Ot−hp+1,…,Ot]ht]
其中
h
p
h^{\mathrm{p}}
hp 表示过去信息的范围,每个元素
O
t
−
i
O_{t-i}
Ot−i 对于
i
∈
{
0
,
1
,
…
,
h
p
}
i \in\{0,1, \ldots, h^{\mathrm{p}}\}
i∈{0,1,…,hp} 是时间步
t
−
i
t-i
t−i 的观察到的占用状态。
同样,过去时间段内的时间特征向量定义为:
r t p = [ τ t − h p , τ t − h p + 1 , … , τ t ] \mathbf{r}_{t}^{\mathrm{p}}=\left[\tau_{t-h^{\mathrm{p}}}, \tau_{t-h^{\mathrm{p}}+1}, \ldots, \tau_{t}\right] rtp=[τt−hp,τt−hp+1,…,τt]
其中每个
τ
t
−
i
\tau_{t-i}
τt−i 通过正弦和余弦变换捕捉时间的周期性。
连接序列
[
O
t
−
i
,
r
t
−
i
]
\left[\mathbf{O}_{t-i}, \mathbf{r}_{t-i}\right]
[Ot−i,rt−i] 对于每个时间步由第一个双向LSTM层处理,生成前向和后向方向的隐藏状态。时间步
t
−
i
t-i
t−i 的前向隐藏状态表示为
h
←
t
−
i
\overleftarrow{h}_{t-i}
ht−i,后向隐藏状态表示为
h
←
t
−
i
p
\overleftarrow{h}_{t-i}^{\mathrm{p}}
ht−ip。过去的占用上下文向量
H
t
p
\mathbf{H}_{t}^{\mathrm{p}}
Htp 通过连接当前时间步的最终前向隐藏状态和范围内最早时间步的后向隐藏状态构建:
H t p = [ h ← t p ; h ← t − h p p ] \mathbf{H}_{t}^{\mathrm{p}}=\left[\overleftarrow{h}_{t}^{\mathrm{p}} ; \overleftarrow{h}_{t-h^{\mathrm{p}}}^{\mathrm{p}}\right] Htp=[htp;ht−hpp]
为了预测多个未来时间步的占用情况,我们定义预测范围为 h O h^{\mathrm{O}} hO 和 j ∈ { 1 , 2 , … , h O } j \in\left\{1,2, \ldots, h^{\mathrm{O}}\right\} j∈{1,2,…,hO}。对于每个未来时间步 t + j t+j t+j,第二个双向LSTM层的输入通过结合上下文向量 H t p H_{t}^{\mathrm{p}} Htp 和相应的时间特征构建:
Z t + j = [ H t p ; τ t + j ] \mathbf{Z}_{t+j}=\left[\mathbf{H}_{t}^{\mathrm{p}} ; \tau_{t+j}\right] Zt+j=[Htp;τt+j]
第二个LSTM层处理这些组合输入 Z t + j \mathbf{Z}_{t+j} Zt+j 以生成每个未来时间步的隐藏表示 h t + j T \mathbf{h}_{t+j}^{\mathrm{T}} ht+jT:
h t + j T = [ h ← t + j T ; h ← t + j T ] \mathbf{h}_{t+j}^{\mathrm{T}}=\left[\overleftarrow{h}_{t+j}^{\mathrm{T}} ; \overleftarrow{h}_{t+j}^{\mathrm{T}}\right] ht+jT=[ht+jT;ht+jT]
其中
h
←
t
+
j
T
\overleftarrow{h}_{t+j}^{\mathrm{T}}
ht+jT 和
h
←
t
+
j
T
\overleftarrow{h}_{t+j}^{\mathrm{T}}
ht+jT 是第二个LSTM层的前向和后向隐藏状态。
每个未来时间步
t
+
j
t+j
t+j 的预测占用概率
O
^
t
+
j
\hat{O}_{t+j}
O^t+j 通过将隐藏表示
h
t
+
j
T
h_{t+j}^{\mathrm{T}}
ht+jT 传递给一个全连接层并随后进行sigmoid激活获得:
O ^ t + j = σ ( W f h t + j T + b f ) \hat{O}_{t+j}=\sigma\left(W^{\mathrm{f}} h_{t+j}^{\mathrm{T}}+b^{\mathrm{f}}\right) O^t+j=σ(Wfht+jT+bf)
其中
W
f
W^{\mathrm{f}}
Wf 和
b
f
b^{\mathrm{f}}
bf 是全连接层的权重和偏置,
σ
(
⋅
)
\sigma(\cdot)
σ(⋅) 表示sigmoid激活函数。
这些预测的占用概率
O
^
j
\hat{O}_{j}
O^j 被整合到状态空间中。通过包含这些概率,RL代理可以预测未来状态,并基于预测的占用和能源成本动态优化控制动作。当空间被预测为空置时,如果更具成本效益,代理可能会决定执行预热或预冷动作。这种方法允许代理以一种方式管理环境,为未来的占用做准备,同时根据预测价格和需求优化能源成本。
3.2 基于PPO的学习控制策略
我们使用近端策略优化 [32, PPO] 算法学习一个优化能源效率和居住者舒适的控制策略。通过与提供实时状态信息(如占用、能源市场率和环境因素)的模拟器交互,PPO学习适应性的控制策略,动态调整能源使用。这包括决定何时激活或停用HVAC系统以执行预热或预冷动作。PPO通过迭代更新控制策略,同时防止过于大的更新可能导致学习过程不稳定,从而在这些动态环境中促进稳健学习。这使系统能够有效处理不确定性,在不牺牲居住者舒适度的情况下节省能源成本。
3.2.1 策略表示和目标函数。控制策略
π
θ
′
(
a
t
∣
s
t
)
\pi_{\theta}^{\prime}\left(a_{t} \mid s_{t}\right)
πθ′(at∣st),由参数
θ
\theta
θ定义,给出了在当前状态
s
t
s_{t}
st下选择动作
a
t
a_{t}
at的概率。目标是最大化随时间的预期累计奖励,反映成本有效的能源消耗同时保持舒适。PPO通过使用截断替代目标函数
L
policy
(
θ
)
L^{\text {policy }}(\theta)
Lpolicy (θ) 迭代改进策略来优化此目标,以防止过于大的更新并稳定学习:
L policy ( θ ) = E t [ min ( r t ( θ ) ⋅ A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) ⋅ A ^ t ) ] L^{\text {policy }}(\theta)=\mathbb{E}_{t}\left[\min \left(r_{t}(\theta) \cdot \hat{A}_{t}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \cdot \hat{A}_{t}\right)\right] Lpolicy (θ)=Et[min(rt(θ)⋅A^t,clip(rt(θ),1−ϵ,1+ϵ)⋅A^t)]
其中 A ^ t \hat{A}_{t} A^t是优势函数, ϵ \epsilon ϵ是截断超参数, r t ( θ ) r_{t}(\theta) rt(θ)是新旧策略之间的概率比,公式为:
r t ( θ ) = π θ ′ ( a t ∣ s t ) π θ old ′ ′ ( a t ∣ s t ) r_{t}(\theta)=\frac{\pi_{\theta}^{\prime}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}^{\prime}}^{\prime}\left(a_{t} \mid s_{t}\right)} rt(θ)=πθold ′′(at∣st)πθ′(at∣st)
3.2.2 优势估计和价值函数逼近。为了指导PPO中的策略更新,使用优势估计确定动作 a t a_{t} at相对于从状态 s t s_{t} st采取的平均动作的有利程度。采用广义优势估计(GAE)方法计算优势函数 A ^ t \hat{A}_{t} A^t,相比简单的时差(TD)误差提供更稳定且噪声更少的估计。GAE通过递归结合多步回报有效平衡偏差和方差,定义为:
A ^ t = δ t + ( γ λ ) A ^ t + 1 \hat{A}_{t}=\delta_{t}+(\gamma \lambda) \hat{A}_{t+1} A^t=δt+(γλ)A^t+1
其中
δ
t
=
r
t
+
γ
V
(
s
t
+
1
)
−
V
(
s
t
)
\delta_{t}=r_{t}+\gamma V\left(s_{t+1}\right)-V\left(s_{t}\right)
δt=rt+γV(st+1)−V(st)是时差误差,
γ
∈
[
0
,
1
]
\gamma \in[0,1]
γ∈[0,1]是折扣因子,
λ
∈
[
0
,
1
]
\lambda \in[0,1]
λ∈[0,1]是控制偏差-方差权衡的参数。
价值函数
V
(
s
t
)
V\left(s_{t}\right)
V(st),由参数
ϕ
\phi
ϕ定义,通过最小化预测值和实际回报之间的均方误差学习。损失函数定义为:
L V F ( ϕ ) = E t [ ∑ t ( V ϕ ( s t ) − R t ) 2 ] L^{\mathrm{VF}}(\phi)=\mathbb{E}_{t}\left[\sum_{t}\left(V_{\phi}\left(s_{t}\right)-R_{t}\right)^{2}\right] LVF(ϕ)=Et[t∑(Vϕ(st)−Rt)2]
其中
V
ϕ
(
s
t
)
V_{\phi}\left(s_{t}\right)
Vϕ(st)是在
s
t
s_{t}
st处的批评家估计,
R
t
R_{t}
Rt是实际回报。
3.2.3 动作空间和探索策略。动作空间包括各种控制动作,例如执行预热或预冷,或开关系统。为了避免算法过早收敛到次优策略,在目标函数中添加熵奖金以保持探索和利用之间的平衡:
L entropy ( θ ) = − E t [ ∑ a π θ ′ ( a ∣ s t ) log π θ ′ ( a ∣ s t ) ] L^{\text {entropy }}(\theta)=-\mathbb{E}_{t}\left[\sum_{a} \pi_{\theta}^{\prime}\left(a \mid s_{t}\right) \log \pi_{\theta}^{\prime}\left(a \mid s_{t}\right)\right] Lentropy (θ)=−Et[a∑πθ′(a∣st)logπθ′(a∣st)]
3.2.4 优化和训练策略。用于PPO的最终目标函数由三个主要部分组成:策略损失、价值函数损失和熵奖金。组合损失函数为:
L ( θ , ϕ ) = L policy ( θ ) + c 1 L V F ( ϕ ) + c 2 L entropy ( θ ) L(\theta, \phi)=L^{\text {policy }}(\theta)+c_{1} L^{\mathrm{VF}}(\phi)+c_{2} L^{\text {entropy }}(\theta) L(θ,ϕ)=Lpolicy (θ)+c1LVF(ϕ)+c2Lentropy (θ)
其中 c 1 c_{1} c1和 c 2 c_{2} c2是平衡价值函数损失和熵奖金对策略损失贡献的系数。通过最小化这个最终组合损失,确保算法不仅改进其控制策略,还保持准确的价值函数预测,并充分探索动作空间以避免次优解决方案。
4 实验设置
4.1 数据描述和预处理
在本研究中,我们利用多个数据源来优化室内HVAC控制,重点关注诸如占用信息、室外温度和批发电力市场价格等因素。
实验中使用的占用数据来源于ARAS人类活动识别数据集 [2]。我们使用的数据提供了来自一个有多名居民的真实家庭30天的测量结果。数据以1秒的分辨率捕获,使用20个环境二进制传感器,包括力敏电阻器、压力垫、接触传感器和温度传感器,监控27种不同的活动。在我们的研究中,我们特别关注“外出”活动标签,因为它对于准确跟踪每位居民的占用状态至关重要。为了将这些占用数据集成到我们的HVAC控制系统中,我们进行了预处理步骤以区分个别居民的占用状态,然后汇总数据以反映所有居民同时不在时房屋的整体空置状态。这种方法确保HVAC系统适当响应实际占用状态,从而提高能源效率和舒适度。
我们从Visual Crossing [36]天气数据服务获取室外温度数据。数据按小时记录,地点为澳大利亚墨尔本维多利亚州Clayton (VIC 3168)。我们使用了从2023年5月1日至2023年5月30日的温度数据,代表室外环境条件。这些数据在调整HVAC系统的操作以维持室内舒适水平方面起着关键作用,以应对变化的室外温度。
批发电价数据从澳大利亚能源市场运营商(AEMO)获取,并可通过AEMO聚合价格和需求数据 [7]访问。我们提取了维多利亚州从2023年5月1日至2023年5月30日的聚合价格和需求数据,确保位置和时间信息与室外温度数据一致。
为确保所有数据源的一致性,我们将所有数据重采样为15分钟分辨率。我们将30天的数据集分为23天训练和7天测试。
4.2 HITL策略的情景
在我们的研究中,我们设计了四种不同情景来评估不同类型占用信息及其预测对我们HITL策略控制HVAC系统的性能的影响。对于所有情景,我们将舒适温度设定为 T set = 2 2 ∘ C T^{\text {set }}=22^{\circ} \mathrm{C} Tset =22∘C,舒适范围为 θ range = 3 \theta^{\text {range }}=3 θrange =3。这种 ± 3 ∘ C \pm 3^{\circ} \mathrm{C} ±3∘C的舒适范围基于ASHRAE标准55 [6]规定的办公环境可接受的热舒适区,确保我们的系统保持平衡的居住者舒适度和能源效率。 2 2 ∘ C 22^{\circ} \mathrm{C} 22∘C的设定点温度基于[33]中的元分析,该分析发现生产力在此水平达到峰值,使我们的系统为居住者提供舒适的温度。方程(9)中的RC时间常数 η R ⋅ η C \eta^{R} \cdot \eta^{C} ηR⋅ηC根据可观测的加热和冷却行为计算得出[25]:
η R ⋅ η C = − 1 3600 ⋅ ln ( ( T lowser T upper ) 1 T cood ) \eta^{R} \cdot \eta^{C}=-\frac{1}{3600 \cdot \ln \left(\left(\frac{T_{\text {lowser }}}{T_{\text {upper }}}\right)^{\frac{1}{T_{\text {cood }}}}\right)} ηR⋅ηC=−3600⋅ln((Tupper Tlowser )Tcood 1)1
其中
T
lowser
=
21.
5
∘
C
,
T
upper
=
22.
5
∘
C
T_{\text {lowser }}=21.5^{\circ} \mathrm{C}, T_{\text {upper }}=22.5^{\circ} \mathrm{C}
Tlowser =21.5∘C,Tupper =22.5∘C,以及
t
cood
=
2700
t_{\text {cood }}=2700
tcood =2700秒是从
T
upper
T_{\text {upper }}
Tupper 冷却到
T
lower
T_{\text {lower }}
Tlower 所需的时间,前提是系统关闭且室外温度为
0
∘
C
0^{\circ} \mathrm{C}
0∘C。这导致
η
R
⋅
η
C
=
\eta^{R} \cdot \eta^{C}=
ηR⋅ηC= 16.50小时,与[19]中观察到的典型住宅建筑时间常数15至55小时一致。
这些情景旨在比较占用数据的可用性和实用性,这类数据往往难以获取,并且用户不愿意分享,但对于优化能源效率却至关重要。在所有情景中,代理的状态始终包括一天中的时间、当前室内外温度、预测的室外温度以及当前和预测的批发市场费率。这些元素被包括在内,因为它们要么容易内部收集,要么可靠地从外部来源获取。此外,我们在每种情景中测试了2小时的预测范围,全面分析预测长度对代理决策过程的影响。这个范围长度通过经验评估确定,平衡预测准确性和计算效率。虽然考虑了更长的范围,但它们在性能改进方面提供的回报递减,同时显著增加了状态空间复杂性和训练开销。2小时范围证明足以捕捉相关的时间模式,同时保持系统响应能力,因为RL代理通过训练隐式建模长期动态。此外,这个范围与典型住宅建筑的热特性一致,在超过2小时的时间框架内,由于占用模式和环境条件的变化,控制决策的影响变得越来越不确定。以下情景主要区别在于如何处理占用信息:
4.2.1 情景1 (S1): 完美预测情景。此情景包括HITL代理状态中的实际当前和未来占用数据,跨越多个预测范围。它代表最理想的情景,允许HITL代理以完美的未来洞察做出决策。此情景作为基准,评估占用信息对整体系统性能的有效性。
4.2.2 情景2 (S2): 无占用预测情景。在此情景中,完全排除代理状态中的占用信息。这种设置测试HITL代理是否仅依赖过去反馈(可以间接反映占用模式)来补偿缺乏明确的占用数据。反馈缓冲区作为占用的隐藏表示,因为只有在居住者在场且感到不适时才会提供反馈。此情景帮助确定系统是否可以在没有直接占用输入的情况下高效运行。
4.2.3 情景3 (S3): 当前占用仅情景。在此情景中,代理状态中的占用信息仅限于当前时间步。此设置测试仅即时占用数据的可用性如何影响代理的决策和性能,与拥有完整占用预测(S1)或完全没有(S2)的情况相比。这种比较提供了使用当前与预测占用信息之间的权衡见解。
4.2.4 情景4 (S4): 现实预测占用情景。此情景集成当前占用信息和基于时间信息和过去占用信息的预测占用概率。它旨在反映现实生活中必须预测而非确切知道的占用信息。将此情景与完美预测情景(S1)进行比较,评估预测准确性对系统性能的影响。此外,将此情景与当前占用仅情景(S3)进行比较,说明添加预测占用数据如何影响整体性能。
4.3 敏感性分析设置
为了评估我们的控制方案在不完美人类反馈行为下的鲁棒性,我们考察了在不同最大概率上限 p max p^{\max } pmax下的系统性能。首先使用 p max = 1.0 p^{\max }=1.0 pmax=1.0训练RL代理,代表居住者在感到不适时总是提供反馈的理想情景。在评估过程中,我们测试了不同的 p max p^{\max } pmax值(从0.50到1),以模拟居住者即使在显著不适情况下也可能不提供反馈的更现实情景。这种训练-评估方法使我们能够评估在理想条件下学习的策略在面对更不确定的人类反馈模式时是否能保持性能。
4.4 基准控制器
为进一步评估我们HITL HVAC控制策略的性能,我们将其与两种基准策略进行比较:基于规则的控制器和优化控制器。
4.4.1 基于规则的控制器。在此控制器中,HVAC系统模仿一种常见方法:当有人在家时打开HVAC,离开时关闭。系统基于预设温度设定点运行,当房屋有人时维持室内温度,无人时关闭。这反映了日常实践中HVAC系统对动态定价信号无响应,而仅基于当前占用状态运行。
4.4.2 优化控制器。此控制器中的HVAC控制被公式化为一个优化问题,使用滚动范围法通过Gurobi求解器解决。优化问题利用了我们在RL环境中使用的相同热动力学模型,确保环境和HVAC系统的热行为一致性。此控制器假设对未来室外温度、批发市场价格和占用状态有完美预测。硬约束设置为将室内温度维持在指定的舒适范围内。我们测试了各种
±
3
\pm 3
±3度的舒适范围和24小时预测范围,以确保它具有与我们的HITL策略相同的舒适设置,并探索其能源成本。在此控制器中使用室外温度、批发市场率和占用状态的完美预测,以及长预测范围,以反映理想条件下的接近最优系统性能。
5 结果与分析
本节深入分析了所提出的HITL HVAC控制框架在不同占用场景下的性能,与传统控制系统相比,以及其对不精确人类反馈的鲁棒性。评估考虑了关键指标,如能源成本、居住者舒适度、室内温度维护和系统响应能力,所有这些都在图2和图3中展示。此外,我们使用两个关键指标评估温度控制性能:温度违规概率(即在占用期间温度超出舒适范围的时间百分比)和设定点温度的平均绝对误差(MAE)(即室内温度与期望设定点
2
2
∘
C
22^{\circ} \mathrm{C}
22∘C的平均绝对差异)。这些指标提供了关于每种方法维持期望舒适条件效果的额外见解。
表1展示了将我们的HITL方法与优化和基于规则的方法进行比较的关键温度性能指标。对于HITL方法,这些指标通过平均所有情景和不适比例下的25次独立运行结果来提供全面评估。图2(a)展示了四个HITL情景下的总成本、能源成本和不适成本的箱线图。箱线图包含RL算法25次独立运行的数据,捕捉了由于学习过程的随机性质而导致的结果变异性。该图还包含了各种不适比例,表示系统对居住者不适与能源成本的重视程度。通过调整这些比例,系统可以优先考虑节能或居住者舒适度,提供对每种情景下所做的权衡的见解。此外,该图还包括基于规则和基于优化方法在24小时完美预测范围内的能源成本和不适成本。为了公平比较,这些基准方法的性能在同一RL环境下经过25次独立运行评估,选取中位数值作为最终结果。为进一步探讨系统的行为,图2(b)和2©专注于温度维护和系统
(a) 不同
β
\beta
β值和2小时预测范围下的HVAC控制策略成本分析,其中
β
\beta
β是确定不适与能源成本相对重要性的加权参数,如方程(19)中所定义。结果显示最大反馈概率上限
p
max
=
1
p^{\max }=1
pmax=1。
图2:不同控制策略在目标、温度和控制决策及反馈方面的比较。
对反馈的响应决策。由于页面限制以及认为这些案例不足以代表特定分析,情景3(当前占用仅)和基于规则的算法未包含在比较中。相反,S1(完美预测)、S2(无占用信息)、S4(现实占用预测)和优化控制器被包括以进行比较。这些情景使我们能够探讨预测准确性、占用信息和动态系统适应的影响。
以下小节将进一步深入这些结果,分析每个情景的含义,并详细讨论HITL框架如何适应实时条件并在能源效率和居住者舒适之间平衡竞争需求。
5.1 从实时反馈中学习偏好
实时反馈机制的集成使系统能够有效学习居住者的舒适偏好,需要最少的手动覆盖。在S1(完美预测)和S4(现实预测)中,当房间有人时,系统维持室内温度在所需的舒适范围内,需要最少的用户干预,如图2(b)和2©所示。这表明反馈机制随着时间推移适应居住者的需求,确保系统保持响应性,同时减少手动覆盖的频率。即使在S2中没有提供明确的占用信息,系统仍然能够通过依赖历史反馈维持合理的性能。这反映在图2©中,S2尽管没有占用数据,仍能达到合理的覆盖次数。
这些结果表明,即使没有实时占用信息,反馈机制本身也可以在维持舒适和能源效率方面发挥关键作用。
5.2 占用预测准确性的影响
即使有反馈机制,纳入占用信息也能显著增强系统性能,如图2(a)所示的不同情景中的能量和不适成本比较。尽管S2在缺乏占用数据的情况下表现尚可,S1、S3和S4在系统决策过程中包含占用数据(无论是实时还是预测)时表现出显著改善。
当考虑不同的不适比例时,占用预测的影响变得明显,这反映了系统在节能和居住者舒适之间的优先级。S1(完美占用预测)在所有不适比例下始终优于S3(无预测)和S4(现实预测),如图2(a)所示。当不适比例设置为
0.1
,
0.3
0.1,0.3
0.1,0.3和0.5时,S3和S4实现类似的总成本,表明当居住者舒适优先级较低时,现实占用预测(S4)相较于无预测(S3)没有显著优势。这表明如果预测准确性不足,可能不会带来更好的结果。然而,随着不适比例增加,S4开始优于S3,反映了预测准确性在管理舒适中的价值。图2(a)显示,预测准确率为
92.52
%
92.52 \%
92.52%时,S4能够更好地预测占用变化并在较高的不适权重下维持舒适,而S3则难以做到。这说明虽然完美预测(S1)始终带来更好的结果,但在优先考虑舒适时,合理准确的预测(S4)仍能提供实质好处。
5.3 比较HITL RL与优化
基于优化的控制方法,利用完美预测和明确的舒适约束,如表1所示,在温度维护方面表现出色。然而,这种表现伴随着重要的注意事项。首先,它假设对未来状态(包括占用模式、天气条件和市场价格)有完美预测——这是现实中无法实现的条件。其次,它在明确的舒适偏好知识下运行,而我们的HITL方法必须通过互动学习这些偏好。如图2(a)所示,不同控制策略下的能源成本揭示了有趣的模式。基于优化的控制器在理想条件下实现了高效的能源管理。HITL方法尽管在不完美信息和学习偏好等更现实的约束下运行,仍保持了在平衡舒适和能源效率方面的竞争力。这证明了我们的方法在现实中不具备完美预测和明确舒适偏好的情况下的实际可行性。这一点也通过其适应变化条件和随时间学习用户偏好的能力得以体现,如图2(b)和2©所示。虽然基于优化的控制器依靠完美的未来知识进行决策,我们的方法展示了
表1:温度性能指标比较
方法 | 违规概率 | 到设定点的MAE |
---|---|---|
HITL | 10.24 % 10.24 \% 10.24% | 1.82 |
优化 | 0.00 % 0.00 \% 0.00% | 1.60 |
基于规则 | 3.13 % 3.13 \% 3.13% | 0.49 |
图3:在不同最大概率上限
p
MAX
p^{\text {MAX }}
pMAX 下,不适比例
β
=
0.5
\beta=0.5
β=0.5时HITL框架的敏感性分析。
通过适应反馈和市场条件实现稳健性能。
5.4 对反馈响应的敏感性
图3展示了我们的框架在不同最大概率上限( p MAX p^{\text {MAX }} pMAX 从0.50到1)下的不精确人类反馈敏感性,其中我们展示了不适比例 β = 0.5 \beta=0.5 β=0.5的结果,以演示系统在平衡舒适和能源效率时的性能。不同情景下的总成本相对稳定,尽管在较低概率上限时由于反馈频率降低导致不适成本降低而略有下降。通过设定点的MAE衡量的温度控制性能在所有情景中表现出稳健的稳定性。即使在S2(无占用信息)中,它显示出最高的敏感性,但由于完全依赖反馈而没有占用推理,最大MAE波动约为 12 % 12 \% 12%。S3和S4由于受益于当前或预测的占用信息以补充反馈机制,保持了相对稳定的性能。S1(完美占用预测)表现出最稳定的性能,MAE变化小于 0.5 % 0.5 \% 0.5%,表明准确的占用和预测信息可以有效补偿不精确的反馈模式。
6 结论
本文提出了一种带有人工干预(HITL)的AI框架,简化了现有优化HVAC系统方法的复杂性,同时有效地平衡了能源效率和居住者舒适度。通过结合实时用户反馈和响应动态电力市场条件,所提出的框架在不依赖复杂的预定义模型的情况下显著减少了能源成本并提高了舒适度。强化学习(RL)的使用使系统能够不断适应变化的环境和居住者偏好,提供了一个可扩展且灵活的解决方案。在未来的工作中,我们将进一步研究占用预测的精细化和在各种建筑类型和电网条件下的可扩展性,特别关注隐私保护技术以收集和处理占用数据。此外,未来的研究可以调查在时间步长内实施延迟反馈机制,以更准确地模拟真实世界的用户交互模式。尽管本研究证明了带有人工干预的HVAC控制的有效性,但在实践中实施此类系统需要仔细考虑用户隐私,同时优化能源效率和舒适度。
致谢
这项工作得到了澳大利亚研究委员会(ARC)的部分支持,通过DECRA奖助金DE230100046和OPTIMA培训中心资助IC200100009。
参考文献
[1] Moatasem Abdallah, Caroline Clevenger, Tam Vu, 和 Ash Nguyen。2016。使用可穿戴技术感知居住者舒适度。在2016年建设研究大会。美国土木工程师协会(ASCE),弗吉尼亚州雷斯顿,940-950。
[2] Hande Alemdar, Halil Ertan, Odenn Durmaz Ixcel, 和 Cem Ersoy。2013。多户家庭中的ARAS人类活动数据集。在2013年第7届普适计算技术与医疗保健及研讨会国际会议。IEEE,新泽西州皮斯卡塔韦,232-235。
[3] Abdullah Alsalemi, Mona Ramadan, Faycal Bensaali, Abbes Amira, Christos Sardianos, Iraklis Varlamis, 和 George Dimitrakopoulos。2019。通过微时刻分类支持家庭节能行为。应用能源250(2019),1302-1311。
[4] Kadir Amasyali 和 Nora M El-Gohary。2016。住宅和办公楼居住者的能源相关价值观和满意度水平。建筑与环境95(2016),251-263。
[5] Uxma Amin, MJ Hossain, 和 F Fernandes。2020。多区域办公楼HVAC系统基于最佳价格的需求数量响应控制。清洁生产杂志270(2020),122059。
[6] ANGI Ashrae 等。2020。标准55-2020:人类占用的热环境条件。美国采暖、制冷与空调工程师学会,Inc. 亚特兰大。
[7] 澳大利亚能源市场运营商(AEMO)。2024。聚合价格和需求数据。https://aemo.com.au/en/energy-systems/electricity/national-electricity-market-nem/data-nem/aggregated-data。访问日期:2024-01-15。
[8] Mesut Avci, Murat Erkoe, Amir Rahmani, 和 Shihab Aufour。2013。使用实时电价的建筑HVAC负载预测控制。能源与建筑60(2013),199-209。
[9] Shahab Bahrami, M Hadi Amini, Miadress Shafie-khah, 和 Joao PS Catalao。2017。一种支持需求响应部署的分散电力市场方案。IEEE电力系统汇刊33,4(2017),4218-42273。
[10] Liangliang Chen, Fei Meng, 和 Ying Zhang。2023。通过元学习和基于模型的离线强化学习快速实现带有人工干预的HVAC系统控制。IEEE可持续计算汇刊8,3(2023),504-521。
[11] Xiaogang Cheng, Bin Yang, Thomas Olofsson, Guoqing Liu, 和 Haibo Li。2017。基于视频放大技术的在线非侵入性测量皮肤温度的试点研究。建筑与环境121(2017),
1
−
10
1-10
1−10。
[12] Adrian Chojecki, Michał Rodak, Arkadiusz Ambroziak, 和 Piotr Borkowski。2020。基于模糊逻辑设计和智能电表实施的住宅建筑能源管理系统。IET智能电网3,2(2020),254-266。
[13] Panos Constantopoulos, Fred C Schweppe, 和 Richard C Larson。1991。ESTIA:现货电价下空间调节使用的实时消费者控制方案。计算机与运筹学18,8(1991),751-765。
[14] Zsuzasma Csereklyei, Songze Qu, 和 Tihomir Ancev。2019。风能和太阳能发电对澳大利亚批发电力价格的影响。能源政策131(2019),358-369。
[15] M González-Torres, Luis Pérez-Lombard, Juan F Coronel, Ismael B Maestre, 和 Da Yan。2022。建筑能源信息综述:趋势、用途、燃料和驱动因素。Energy Reports 8(2022),626-637。
[16] Mengjie Han, Ross May, Xingxing Zhang, Xinru Wang, Song Pan, Da Yan, Yuan Jin, 和 Liguo Xu。2019。建筑中控制居住者舒适度的强化学习方法综述。可持续城市与社会51(2019),101748。
[17] Farrokh Jazizadeh, Ali Ghahramani, Burcin Becerik-Gerber, Tatiana Kichkaylo, 和 Michael Orosz。2014。办公室建筑中以个性化热舒适驱动的系统的人-建筑交互框架。土木工程计算杂志28,1(2014),2-16。
[18] Farrokh Jazizadeh 和 S. Pradeep。2016。计算机能否视觉量化人类热舒适?短论文。在第三届ACM国际节能建成环境系统会议(加利福尼亚州帕洛阿尔托,美国)(BuildSys '16)。Association for Computing Machinery,纽约州纽约市,
95
−
98
95-98
95−98。
[19] Camille John, Charalampos Vallianos, José Candanedo, 和 Andreas Athienitis。2018。估算北美超过10,000栋住宅建筑的时间常数:迈向热动力学的统计特征。在第七届国际建筑物理会议论文集。国际建筑物理协会,纽约州锡拉丘兹,1383-1388。
[20] Wooyoung Jung 和 Farrokh Jazizadeh。2018。基于视觉的HVAC控制热舒适量化。建筑与环境142(2018),513-523。
[21] Pushpendu Kar, Arish Shareef, Aran Kumar, Koh Tayr Harn, Balaji Kalluri, 和 Sanjib Kumar Panda。2019。BeViCEE:个性化控制、视觉舒适和建筑节能的推荐方法。建筑与环境152(2019),135-144。
[22] Sami Karjalainen。2009。芬兰家庭和办公室的热舒适和恒温器使用。建筑与环境44,6(2009),1237-1245。
[23] Georgios I Maniatis 和 Nikolaus T Milonas。2022。风能和太阳能发电对希腊批发电力价格水平和波动性的影响。能源政策170(2022),113243。
[24] Amin Mirakhorli 和 Bing Dong。2016。基于占用行为模型预测控制的建筑室内气候——关键综述。能源与建筑129(2016),499-513。
[25] Richard E Mortensen 和 Kevin P Haggerty。1988。一种用于加热和冷却负荷的随机计算机模型。IEEE电力系统汇刊5,3(1988),
1213
−
1219
1213-1219
1213−1219。
[26] Dan Popa, Florin Pop, Cristina Serbanescu, 和 Aniello Castiglione。2019。智能家居环境平台中的深度学习模型用于家庭自动化和能源减少。神经计算与应用51,3(2019),1317-1337。
[27] Marco Pritoni, Jonathan M Woolley, 和 Mark P Modera。2016。响应占用的学习型恒温器是否节能?大学宿舍实地研究。能源与建筑127(2016),469-478。
[28] M. L. Puterman。2009。马尔可夫决策过程:离散随机动态规划。Wiley,霍博肯,新泽西州。
[29] Juhi Ranjan 和 James Scott。2016。ThermalSense:使用热成像确定动态热舒适偏好的方法。在2016年ACM国际普适与泛在计算联合会议论文集(德国海德堡)(UbiComp '16)。Association for Computing Machinery,纽约州纽约市,1212-1222。
[30] Christos Sardianos, Christos Chronis, Iraklis Varlamis, George Dimitrakopoulos, Yassine Himeur, Abdullah Alsalemi, Faycal Bensaali, 和 Abbes Amira。2020。实时个性化节能建议。在2020年物联网(ITNings)国际会议和IEEE绿色计算与通信(GreenCom)和IEEE网络、物理和社会计算(CPSCom)和IEEE智能数据(SmartData)和IEEE Cybermatics大会(Cybermatics)。IEEE,新泽西州皮斯卡塔韦,366-371。
[31] Christos Sardianos, Iraklis Varlamis, George Dimitrakopoulos, Dimosthenis Anagnostopoulos, Abdullah Alsalemi, Faycal Bensaali, Yassine Himeur, 和 Abbes Amira。2020。Rehab-c:改变能源习惯的建议。未来一代计算机系统112(2020),394-407。
[32] John Schulman, Filip Wolski, Prafulla Dharwal, Alec Radford, 和 Oleg Klimov。2017。近端策略优化算法。arXiv预印本arXiv:1707.06347。
[33] Olli Seppanen, William J Fisk, 和 QH Lei。2006。办公室工作的房间温度与生产力。健康建筑2006会议1(2006),243-247。
[34] Salinan Sadiq Shuvo 和 Yasin Yilmaz。2022。家庭能源推荐系统(HERS):基于居民反馈和活动的深度强化学习方法。IEEE智能电网汇刊13,4(2022),2812-2821。
[35] 美国能源信息管理局。2018。表HC6.1:2015年按住房单元类型划分的美国家庭供暖空间加热情况。https://www.eia.gov/consumption/residential/data/2015/hc/php/hc6.1.php 访问日期:2024-09-24。
[36]Visual Crossing Corporation。2024。天气数据服务。https://www.visualcrossing.com/weather/weather-data-services。访问日期:2024-01-15。
[37] Yixuan Wei, Xingxing Zhang, Yong Shi, Liang Xia, Song Pan, Jinshun Wu, Mengjie Han, 和 Xiaoyun Zhao。2018。基于数据驱动方法的建筑能耗预测与分类综述。可再生和可持续能源评论82(2018),1027-1047。
[38] Ye Yao 和 Divyanshu Kumar Shekhar。2021。供暖、通风和空调(HVAC)领域模型预测控制(MPC)的最新研究进展综述。建筑与环境200(2021),107952。
[39] Bo Yi 和 Joon-Ho Choi。2015。面部皮肤温度作为建筑热舒适控制系统中的前瞻性变量。在可持续人类-建筑生态系统会议论文集。美国土木工程师协会,弗吉尼亚州雷斯顿,117-125。
[40] Liang Yu, Di Xie, Chongxin Huang, Tao Jiang, 和 Yulong Zou。2018。考虑室内空气质量管理的商业建筑HVAC系统能源优化。IEEE智能电网汇刊10,5(2018),5103-5113。
[41] SI Zhou, AA Shah, PK Leung, X Zhu, 和 Q Liao。2023。机器学习在HVAC领域的应用综合评述。DeCarbon 2(2023),100023。
参考论文:https://arxiv.org/pdf/2505.05796