wdlovecjy-CSDN博客

原创 PG公式推导

强化学习 policy gradient

2022-05-03 15:07:17 214

【强化学习】不基于模型的预测通过先前的讲解，我们明白了如何从理论上解决一个已知的MDP：通过动态规划来评估一个给定的策略，并且得到最优价值函数，根据最优价值函数来确定最优策略；也可以直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。本节讨论的是被认为是MDP，但是却不掌握MDP细节的问题（在我看来就是MDP之间状态转移概率不知道），也就是讲述如何直接从Agent与环境的交互来得得到一个估计的最优价值函数和最优策略。本讲的内容，聚焦于策略评估，也就是预测，直白地说就是在给定的策略同时不清楚M

2021-12-01 20:55:13 360

原创 2021-11-29 强化学习第三天

学了三节强化学习视频课，对其中的一些概念和公式以及方法掌握还是不太熟悉，想着停下来看一看书籍以及各路大神对前面的理解，所以本篇就是记录自己再看书籍以及资料时觉得重要的东西。以便自己在忘记的时候进行反思学习。本篇所看书籍是强化学习导论以及易强化学习两本书籍。强化学习两个特征 - 试错法和延迟奖励 - 是强化学习的两个最重要的可区别特征。与监督学习和无监督学习的不同：监督学习从有标记的训练集中学习，而强化学习从自己的经验中学习；无监督学习主要是学习未标记数据集中的数据分布，虽然个体的经验数据中揭示数据分

2021-11-29 20:45:18 688

原创 11.25学习强化学习第三天——动态规划寻找最优策略

强化学习之路2（动态规划寻找最优策略）本文还是借鉴知乎大神叶强的文章，如有侵权，会删除，本文只是自己得到的一点思考。简介动态规划算法是解决复杂问题的一个方法，算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问题的时候，其结果通常需要存储起来被用来解决后续复杂问题。当问题具有下列特性时，通常可以考虑使用动态规划来求解：第一个特性是一个复杂问题的最优解由数个小问题的最优解构成，可以通过寻找子问题的最优解来得到复杂问题的最优解；子问题在复杂问题内重复出现，使得子问题的解可以被存储

2021-11-25 23:30:56 562

原创 11.23 学习强化学习第二天——马尔科夫

强化学习之路1（马尔科夫）前两天认真思考了自己的研究方向，自己导师一直让我阅读论文自己找一个方向，自己硕士期间是做深度学习相关的，但是博导不怎么做相关的领域，并觉得深度相关的知识在我们领域只是应用，其创新点很难支撑一个博士毕业，所以自己也是看了几十篇论文，实在是找不到太好的方向。自己实验室有人做强化学习相关的，老师也给我提过，是一个比较热，比价有潜力的方向，所以自己就在知乎上查询该如何入门强化学习，搜到了David Silver主讲的一套强化学习视频公开课，较为系统、全面地介绍了强化学习的各种思想、实现算

2021-11-23 17:44:26 585

原创 Estimating Trafﬁc Flow in Large Road Networks Based on Multi-Source Trafﬁc Data

Estimating Trafﬁc Flow in Large Road Networks Based on Multi-Source Trafﬁc Data本篇文章发表在IEEE Transactions on ITS 2020前言准确和高分辨率的交通流信息对交通规划和管理具有重要意义，然而，由于安装和维护成本高，道路上的交通传感设备数量有限，而且目前大型公路网中的大多数路段都没有交通流信息。这对交通规划和管理来说是一个巨大的挑战，需要开发理论模型和数据驱动的方法来估计大型公路网的交通流。摘要由

2021-11-18 10:50:31 866

原创 Long memory is important: A test study on deep-learning based car-following model

Long memory is important: A test study on deep-learning based car-following model本篇文章发表在2019年Physica A 期刊上（3区）摘要长时间记忆效应是否在汽车跟踪模型中起着重要作用仍未解决。在本文中，我们研究了在实践中观察到的长记忆效应和滞后现象之间的可能关系。特别是，我们比较了不同的基于深度学习的汽车跟踪模型的性能，这些模型将各种时间尺度的历史信息作为输入。测试表明，只有具有长记忆的汽车跟踪模型才能正确模拟滞后

2021-11-17 21:52:07 611

原创 A data-driven two-lane traffic flow model based on cellular automata

A data-driven two-lane traffic flow model based on cellular automata这是一篇发表在 Physica A 上的一篇论文。摘要本文提出了一个基于蜂窝自动机的数据驱动的双车道交通流模型。长短期记忆（LSTM）和支持向量机（SVM）被用来分别从车辆的真实运行数据中学习汽车跟随行为和变道行为的特征。在最佳网络参数下，LSTM网络对训练和测试数据的平均绝对误差分别只有0.001和0.006；而SVM分类器对这两个数据的预测准确率达到0.99以上。

2021-11-17 16:16:32 112

原创 Data-Driven Modelling of Car-Following Behavior in the Approach of Signalized Urban Intersections

Data-Driven Modelling of Car-Following Behavior in the Approach of Signalized Urban Intersections文章发表在2021 IEEE Intelligent Transportation Systems Conference摘要对虚拟测试和自动驾驶系统的开发越来越重视，这意味着对虚拟测试环境的准确性要求很高。特别是被测车辆周围的交通参与者必须有真实地表现，以便将模拟的测试结果与现实进行比较，达到验证的目的。因此，

2021-11-16 18:16:28 813

原创 Simultaneous modeling of car-following and lane-changing behaviors using deep learning

Simultaneous modeling of car-following and lane-changing behaviors using deep learning摘要跟车（CF）和变道（LC）行为是交通流中的两个基本动作，在文献中一般是分开建模的，因此这两种行为之间的相互作用在分开的模型中很容易被忽略，导致不现实的交通流描述。在本文中，我们采用深度学习模型–长短期记忆（LSTM）神经网络，对这两种基本行为同时建模。通过观察目标车辆周围六辆车的位置信息，LSTM可以自动提取影响CF和LC行为的重

2021-11-15 19:27:30 663

原创 Memory, attention and prediction: a deep learning architecture for car-following

Memory, attention and prediction: a deep learning architecture for car-following本篇文章于2019年发表在Transportmetrica B: Transport Dynamics摘要汽车跟随（CF）模型是一个有吸引力的研究领域，因为它们从根本上描述了车辆的纵向互动，并对理解交通流做出了巨大贡献。在这项研究中，通过结合众多深度神经网络结构来模仿真实驾驶员的记忆、注意力和预测（MAP）机制，建立了一个名为MAP的基于深度学

2021-11-15 16:04:28 1856

原创 A recurrent neural network based microscopic car following model to predict trafﬁc oscillation

A recurrent neural network based microscopic car following model to predict trafﬁc oscillation这又是一篇老文章，发表在《transportation research part c》上。同样是用基于微观交通流模型的深度学习方法去预测交通震荡。同我之前一段关注的基于物理交通流模型的深度学习不同的是，这些只是运用了跟车模型的数据，先训练后预测，取代了一个较好的结果。而最近流行的PINN则是应用这些物理模型的某些条件当

2021-11-14 18:50:54 985

原创 2021-11-12 Capturing Car-Following Behaviors by Deep Learning

Capturing Car-Following Behaviors by Deep Learning这是一篇2017年的老文章，讲的就是用深度学习去预测跟车模型中的行为。因为在2017年，深度学习刚刚发展起来，所以在现在看来，这篇文章很简单。但是还是有我值得去学习的地方。首先，本质上就是利用开源的数据，对下个时刻的车辆速度和位置进行预测，可是作者利用这些数据同汽车的跟车模型联系起来，就显得更加高大上。其次，由于是深度学习初期阶段，作者对GRU的模型进去了比较深入的研究和试验。特别是对模型结构的选择以

2021-11-12 17:34:40 2119

原创 11-04Physics-Aware Learning-based Longitudinal Vehicle Trajectory Prediction in Congested Traffic

Physics-Aware Learning-based Longitudinal Vehicle Trajectory Prediction in Congested Traffic摘要拥挤交通中的冲击波通常会造成负面影响，包括额外的旅行时间、安全风险和能源消耗。基于学习的轨迹预测模型利用周围车辆的历史轨迹作为输入，而不考虑冲击波的影响，而基于物理的模型利用冲击波来预测轨迹，但预测性更差。为了将冲击波的物理特性纳入基于学习的模型，本研究提出了一个基于物理感知的学习模型，用于互联车辆环境中的多步骤轨迹预

2021-11-05 15:50:35 370

原创 2021.11.02--Estimating motorway trafﬁc states with data fusion and physics-informed deep learning

Estimating motorway trafﬁc states with data fusion and physics-informed deep learning摘要交通状况估计是交通工程中的一项重要任务。它需要对交通状况进行观测，而迄今为止，即使有了新兴技术，也只是部分地对交通状况进行观测，这是由于欧拉和拉格朗日的观测并不是在任何时候都存在。我们提出了一种方法，利用物理学上的深度学习来融合这两种观察类型，该方法基于Lighthill-Whitham-Richards（LWR）模型来估计没有观察

2021-11-03 18:22:36 648

原创 2021.11.02阅读论文总结__Physics Informed Deep Learning for Traffic State Estimation

Physics Informed Deep Learning for Traffic State Estimation文章问题及解决方法问题：交通状态估计 (TSE) 的挑战在于观察到的交通数据的稀疏性和数据中存在的传感器噪声。交通数据的稀疏性交通数据的稀疏性是因为我们无法在道路的所有地面全部铺满传感器，所以总有一些地面段的交通数据我们无法得知；同时，道路上行驶的大部分是非理想状态下的网联车辆，我们也无法得到每个车辆的具体行驶状态。交通数据具有噪声交通数据存储和传输的限制以及网络问题，传

2021-11-03 16:27:10 881 1

wdlovecjy的博客

原创 SAC算法笔记

原创 DDPG算法