交通流分析2：《基于公共交通大数据的上海市居民出行时空特征研究_王宇》和《面向交通拥堵预测大数据的神经网络群组快速学习_沈晴》阅读总结

最新推荐文章于 2023-11-11 18:12:50 发布

qq_43012160

最新推荐文章于 2023-11-11 18:12:50 发布

阅读量1.2k

点赞数

分类专栏：大数据深度学习文章标签：大数据交通流分析数据挖掘聚类深度学习

本文链接：https://blog.csdn.net/qq_43012160/article/details/103326260

版权

大数据同时被 2 个专栏收录

20 篇文章 7 订阅

订阅专栏

深度学习

17 篇文章 0 订阅

订阅专栏

上一篇的地址：https://blog.csdn.net/qq_43012160/article/details/103313749

基于公共交通大数据的上海市居民出行时空特征研究_王宇

这篇论文内容并不很多，除了数据清洗和数据分类处理之外主要是讲了聚类的问题，核密度聚类：
在这里插入图片描述

是对于数据集中的每个点都进行计算，根据值的大小画热力图用的：

剩下的东西在上一篇张红的文章里基本上都详细提过了（数据清洗和数据分类处理）。

面向交通拥堵预测大数据的神经网络群组快速学习_沈晴

ELM

这篇对于数据同样是按不同的特性（路段）进行划分时候进行的处理：
在这里插入图片描述
这篇文章主要用的模型是ELM，即超限学习机，是一种给神经网络的隐含层随机赋值权重然后把输入层和输出层直连的神经网络，他的理由是BP神经网络训练慢，且泛化性不强（因为会局部最优）：

但是我觉得ELM这样搞肯定是以模型精度换泛化性啊，我觉得少量超限学习机的准确率肯定是不如BP神经网络来的好的，ELM也确实在局部精度上不如BP神经网络。
所以他引入了bagging和boosting进行优化：
在这里插入图片描述
Boosting就是针对上一次迭代的错误数据更加“集中”的学习，来降低整体的错误率，类似于一种强化（权值调整）。更接近BP，不过BP是根据每条数据进行调整，而boosting是每次迭代之后进行调整。

我在这里总结过bagging和boosting：https://blog.csdn.net/qq_43012160/article/details/96303739
在这里插入图片描述
ELM隐含层权重是算出来的，不是通过梯度下降训练出来的，确实存在鲁棒性和局部精度的问题：

在这里插入图片描述

城市拥堵指标

在这里插入图片描述

数据分类处理

有点张红那篇论文宏观上周期趋势，微观上时序非时序的意思了：
在这里插入图片描述
然后就讲到了数据子集的划分：聚类

聚类

在这里插入图片描述
最后做出来聚类优化的结果确实好一点，但是考虑到其本身具有最优参数的性质，作者认为其提升空间有限，即聚类优化优秀在于其参数选择功能，而非其聚类的数据分布优化。

然后就讲到了聚类划分数据子集进行群组学习：
在这里插入图片描述
附属特征类似于数据库里的主属性，按不同主属性拆分数据集

这个只训练输出层。。和fine-tune很相似啊。。
最后的模型框架：

聚类的依据叫做变差系数：

但是聚类会带来一个问题，就是数据分布不均的问题，有的聚类样本多，有的聚类样本少。样本多的聚类会把整个模型带的往他那里偏，可能只是因为他样本多，并不代表他重要性大；样本少的不仅会对子模型的精度产生影响，也会导致其占总模型的权重下降，可能是很重要的属性但是不受重视。