出租车数据要求
时空大数据的质量评估
评价的基本准则
-
数据的基本特征:根据设备采样的基本采样频率
例如:采样频率15s一条,那么可以分析出行的OD信息、车辆的运行速度、交叉口的延误等
1s一条,那么可以用来分析车辆的运行工况、加减速等;
1~2h一条,车辆大致的分布、出行的热点分布等
-
数据的完整性
首先观察数据本身的内容是否有缺失值,需要检查是否存在经纬度、时间、运营状态等,如果存在缺失值,数据的缺失率是多少?能否补全?删除缺失数据是否会影响分析结果?
对于时空大数据,数据完整性还需要考虑个体、时间与空间维度
个体维度上:数据是抽样数据还是全样本数据?
如果是抽样数据,数据量是多少?如何抽样?抽样率是多少?抽样数据在时空上有什么特征?数据是城市中一家出租车公司的数据还是全部出租车运营公司的数据总和?
-
数据的准确性
根据某市出租车数据根据经纬度是否在该市的地理范围内?如果超出该市的地理范围,超出距离大概是多少?
时空大数据的时间完整性评估
时空大数据的时间信息可能包括年、月、时、分、秒等时间单位,如果没有设定时间格式,读取进来的时间字段将以字符串形式呈现;
核心工作为:
- 如何从时间字段中提取出小时信息ÿ