(二)数据预处理 2019年研究生数学建模D题《汽车行驶工况构建》

1489774-20190924211316495-1813335557.png

准备阶段,我们取得了突破性的进展,全面掌握了这个题目的来源和做法,下面开始做第一问。

解题思路

明确技术路线

开始做题目之前,在前面的基础工作开展后,就可以明确汽车行驶工况构建的基本研究技术路线了:

1489774-20190924164713409-827102886.png

汽车行驶工况曲线构建的研究技术路线(点击查看大图)

在前面两个研究内容上,题目已经给出了最终的成功,也就是数据给我们了。但是首先得弄明白:数据怎么得来的?数据采集自哪个地区?驾驶员是哪一类人?车辆是什么类型的?

这些从所给文件,以及题目介绍的内容,加上文献的中一些信息,整合就可以得到。即:

研究人员采集的是福建省福州市和莆田市,采集的对象是轻型汽车,涉及的应该是三个不同的驾驶员驾驶的不同汽车。

明确数据内容

题目给了三个文件,每个文件采自自同一辆车,采集时间基本上都是连续的一个星期。每个文件的数据也大致一样多。

文件数据内容分析
文件 数据量 采集起始时间 采集终止时间 采集区域
文件1 185725 2017/12/18 13:42:13 2017/12/24 13:37:49 福建省福州市
文件2 145825 2017/11/01 19:11:50 2017/11/07 19:09:48 福建省莆田市
文件3 164914 2017/12/01 19:43:57 2017/12/06 19:40:20 福建省福州市

可以看到,在起止时间范围内,按照每秒采集一组数据(采集频率为1Hz),那么必然数据量不止这么点!中间缺失了大量的因为时间不连续而丢失掉的数据!

此外,数据文件中的所有字段的运动学意义必须弄明白:

  • 时间 这个好理解,就是每一秒记录一组数据,这个在时间维度上帮助我们分析数据是否存在异常丢失,是个很关键的字段。
  • GPS车速 这个字段应该由GPS设备采集到经纬度地理位置后,根据采样时间间隔计算出来的,所以当车速异常时,极大可能就是GPS设备异常了,需要认真观察。
  • XYZ三轴加速度 这个字段真的不太好确定具体含义,我的理解是,可能是车上的某个部位贴的一个传感器,XY方向为贴片贴合面两个方向,Z方向为垂直于贴片的方向。当汽车发生上下颠簸时,X方向会有加速度;当汽车发生急速转弯时,因为惯性会有侧边的Y方向加速度,而汽车前进的方向则是Z方向的加速度。不知道理解的对不对,但是其实这个参数意义不大,车的加速度可以直接由GPS车速除以时间间隔就行了。
  • 发动机转速 一般来说,发动机转速增加意味着加速;当汽车发动机转速低于一定值时,可能就是怠速运行了。即此时汽车发动机在运转,但对外不输出功率;发动机转速长期为0,那就是汽车熄火了。
  • 扭矩百分比 这个发动机转速和扭矩百分比是研究发动机的重要指标,但从数据上来看,基本上变化不大。
  • 瞬时油耗 汽车在启动的瞬间,油耗会非常高,或者怠速和刹车时,也会比较高。
  • 油门踏板开度 简单的理解就是,你踩油门的深度,油门越大,喷油越多,汽车加速。也就是我们所说的踩油门。
  • 空燃比 这个是空气和燃料的混合百分比,具体怎么用,不是特别清楚。
  • 发动机负荷百分比 发动机在某一转速下,当时发动机发出的功率与同一转速下所可能发出的最大功率之比,以百分数表示。。
  • 进气量 进气量指汽车发动机进入外界清新空气的流量 。是发动机在工作时氧气的进入,才能保证正常运行。暂态工况下缸进气量的准确估计是提高发动机空燃比控制精度的有效措施之一

此外,一般汽车运行时,一般都会经历这么几种工作运行状况(简成工况),可以看作一个完整的周期运动:

停车 → 起步 → 加速 → 正常运行(匀速) → 减速 → 刹车 → 熄火 → 停车

这期间还有一些更复杂的工况,需要查阅资料来熟悉。当然,如果你考过驾照,那做这个题目可能就会比较好理解这里的字段了。

数据预处理解题过程

问题分析

在题目中,题目给出了数据预处理中存在的几个需要处理的数据异常判断标准。在这里我们还是要再重新整理下,转变成可以建模的依据:

时间不连续问题

首先,因为GPS的问题,造成数据采集时间不连续,而题目的数据全部是连在一起的,所以第一步就需要把数据离散到对应的时间节点上,我称之为 ”时间对齐“ 处理。

GPS丢失问题

造成GPS丢失问题的原因一般就两个。

  • 一个是由于设备自身故障,比如电路异常等,造成的设备短时异常,使得设备会在短暂的1s内,采集不到数据,造成时间不连续,这种情况持续时间很短;对于这样的数据,可以通过插值补齐(说白了就是前后数据的求均值)。
  • 另外一个是由于外部原因,比如高层建筑物遮挡、屏蔽,过隧道等等,设备信号直接被屏蔽了,也就采集不到,造成时间不连续,这种情况持续时间比较长。可以直接剔除掉不考虑。
经纬度异常问题

根据还原经纬度发现,经纬度有存在全为0的情况,这样的数据要直接剔除掉。

长期停车(熄火/不熄火)问题

因为设备采集系统是安装在汽车上的,驾驶员是否熄火停车,将会直接影响到设备是否能供电的问题。若停车不熄火&#x

  • 21
    点赞
  • 80
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你好!针对2023全国大学生数学建模比赛的C数据预处理,我可以为你提供一些常见的方法和步骤。请注意,以下是一般性的建议,具体处理方式可能需要根据数据的具体特点和要求进行调整。 1. 数据导入:将原始数据导入到一个适合的数据分析环境中,例如Python的pandas库或者R语言。确保数据的格式正确,并对缺失值进行处理。 2. 数据清洗:删除不需要的列或者行,根据任务需求进行筛选和过滤。如果有重复数据,则进行去重操作。 3. 数据转换:将需要处理的数据进行转换,例如将文本型数据转换为数值型数据,或者进行单位转换等。 4. 缺失值处理:对于存在缺失值的数据,可以选择删除含有缺失值的行或者列,或者使用插补方法填充缺失值。 5. 异常值处理:检查数据是否存在异常值,如极大值、极小值或者超出合理范围的数值。可以选择删除异常值或者通过插补等方法进行处理。 6. 数据归一化:对于不同量纲的数据,可以进行归一化处理,使得不同特征具有可比性。 7. 特征工程:根据问需求和业务背景,对原始数据进行特征构建和选择,可以使用统计学方法、数据挖掘技术或者领域知识。 8. 数据可视化:通过绘制图表,对数据进行可视化分析,探索数据的分布、变化趋势和相关关系。这有助于进一步理解数据。 9. 数据分割:根据建模需求,将数据集划分为训练集、验证集和测试集等,以便进行模型训练和评估。 以上是一般性的数据预处理步骤,具体实施时需要根据具体情况进行调整和选择。希望对你有所帮助!如果你有更具体的问或者需要进一步的指导,请告诉我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值