交通流分析2:《基于公共交通大数据的上海市居民出行时空特征研究_王宇》和《面向交通拥堵预测大数据的神经网络群组快速学习_沈晴》阅读总结

上一篇的地址:https://blog.csdn.net/qq_43012160/article/details/103313749

基于公共交通大数据的上海市居民出行时空特征研究_王宇

这篇论文内容并不很多,除了数据清洗和数据分类处理之外主要是讲了聚类的问题,核密度聚类:
在这里插入图片描述
在这里插入图片描述
是对于数据集中的每个点都进行计算,根据值的大小画热力图用的:
在这里插入图片描述
剩下的东西在上一篇张红的文章里基本上都详细提过了(数据清洗和数据分类处理)。

面向交通拥堵预测大数据的神经网络群组快速学习_沈晴

ELM

这篇对于数据同样是按不同的特性(路段)进行划分时候进行的处理:
在这里插入图片描述
这篇文章主要用的模型是ELM,即超限学习机,是一种给神经网络的隐含层随机赋值权重然后把输入层和输出层直连的神经网络,他的理由是BP神经网络训练慢,且泛化性不强(因为会局部最优):
在这里插入图片描述
但是我觉得ELM这样搞肯定是以模型精度换泛化性啊,我觉得少量超限学习机的准确率肯定是不如BP神经网络来的好的,ELM也确实在局部精度上不如BP神经网络。
所以他引入了bagging和boosting进行优化:
在这里插入图片描述
Boosting就是针对上一次迭代的错误数据更加“集中”的学习,来降低整体的错误率,类似于一种强化(权值调整)。更接近BP,不过BP是根据每条数据进行调整,而boosting是每次迭代之后进行调整。
在这里插入图片描述
我在这里总结过bagging和boosting:https://blog.csdn.net/qq_43012160/article/details/96303739
在这里插入图片描述
ELM隐含层权重是算出来的,不是通过梯度下降训练出来的,确实存在鲁棒性和局部精度的问题:

在这里插入图片描述

城市拥堵指标

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据分类处理

有点张红那篇论文宏观上周期趋势,微观上时序非时序的意思了:
在这里插入图片描述
然后就讲到了数据子集的划分:聚类

聚类

在这里插入图片描述
最后做出来聚类优化的结果确实好一点,但是考虑到其本身具有最优参数的性质,作者认为其提升空间有限,即聚类优化优秀在于其参数选择功能,而非其聚类的数据分布优化。
在这里插入图片描述
在这里插入图片描述
然后就讲到了聚类划分数据子集进行群组学习:
在这里插入图片描述
附属特征类似于数据库里的主属性,按不同主属性拆分数据集
在这里插入图片描述
这个只训练输出层。。和fine-tune很相似啊。。
最后的模型框架:
在这里插入图片描述
聚类的依据叫做变差系数:
在这里插入图片描述
但是聚类会带来一个问题,就是数据分布不均的问题,有的聚类样本多,有的聚类样本少。样本多的聚类会把整个模型带的往他那里偏,可能只是因为他样本多,并不代表他重要性大;样本少的不仅会对子模型的精度产生影响,也会导致其占总模型的权重下降,可能是很重要的属性但是不受重视。

为此我们介绍过采样和疏采样:为解决数据分布不均问题,对大样本进行疏采样,聚类后只取中心点;对小样本进行过采样,选取临近点对生成虚样本(数据可以往上偏差自然就有可能往下偏差,我就参照往上偏差的点对称出一个往下偏差的点,这里偏差当然不能大,所以要强调临近点)。

如果有理解不对的地方欢迎指正!

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值