上一篇的地址:https://blog.csdn.net/qq_43012160/article/details/103313749
基于公共交通大数据的上海市居民出行时空特征研究_王宇
这篇论文内容并不很多,除了数据清洗和数据分类处理之外主要是讲了聚类的问题,核密度聚类:
是对于数据集中的每个点都进行计算,根据值的大小画热力图用的:
剩下的东西在上一篇张红的文章里基本上都详细提过了(数据清洗和数据分类处理)。
面向交通拥堵预测大数据的神经网络群组快速学习_沈晴
ELM
这篇对于数据同样是按不同的特性(路段)进行划分时候进行的处理:
这篇文章主要用的模型是ELM,即超限学习机,是一种给神经网络的隐含层随机赋值权重然后把输入层和输出层直连的神经网络,他的理由是BP神经网络训练慢,且泛化性不强(因为会局部最优):
但是我觉得ELM这样搞肯定是以模型精度换泛化性啊,我觉得少量超限学习机的准确率肯定是不如BP神经网络来的好的,ELM也确实在局部精度上不如BP神经网络。
所以他引入了bagging和boosting进行优化:
Boosting就是针对上一次迭代的错误数据更加“集中”的学习,来降低整体的错误率,类似于一种强化(权值调整)。更接近BP,不过BP是根据每条数据进行调整,而boosting是每次迭代之后进行调整。
我在这里总结过bagging和boosting:https://blog.csdn.net/qq_43012160/article/details/96303739
ELM隐含层权重是算出来的,不是通过梯度下降训练出来的,确实存在鲁棒性和局部精度的问题:
城市拥堵指标
数据分类处理
有点张红那篇论文宏观上周期趋势,微观上时序非时序的意思了:
然后就讲到了数据子集的划分:聚类
聚类
最后做出来聚类优化的结果确实好一点,但是考虑到其本身具有最优参数的性质,作者认为其提升空间有限,即聚类优化优秀在于其参数选择功能,而非其聚类的数据分布优化。
然后就讲到了聚类划分数据子集进行群组学习:
附属特征类似于数据库里的主属性,按不同主属性拆分数据集
这个只训练输出层。。和fine-tune很相似啊。。
最后的模型框架:
聚类的依据叫做变差系数:
但是聚类会带来一个问题,就是数据分布不均的问题,有的聚类样本多,有的聚类样本少。样本多的聚类会把整个模型带的往他那里偏,可能只是因为他样本多,并不代表他重要性大;样本少的不仅会对子模型的精度产生影响,也会导致其占总模型的权重下降,可能是很重要的属性但是不受重视。
为此我们介绍过采样和疏采样:为解决数据分布不均问题,对大样本进行疏采样,聚类后只取中心点;对小样本进行过采样,选取临近点对生成虚样本(数据可以往上偏差自然就有可能往下偏差,我就参照往上偏差的点对称出一个往下偏差的点,这里偏差当然不能大,所以要强调临近点)。
如果有理解不对的地方欢迎指正!