项目:驾驶风格聚类
数据太多,首先将需要的数据筛选出来
路线:读取原始数据——>删除重复行——>提取需要数据——>去除帧数小于120的数据——>另存为新的.csv文件
方便浏览先上原始数据
原始数据
无人机采集的6车道车辆行驶信息,1秒30帧的速度。下图是部分数据,只能先将需要的数据筛选出来
1.读取.csv数据文件
import pandas as pd
df = pd.read_csv('D:/driver/raw_data/Freeway.csv')
2.去除完全重复数据
#去除完全重复的行数据。fist:保留第一次出现的重复行,删除后面的重复行
df = df.drop_duplicates(keep='first')
3.pandas获取.csv文件指定多列数据
#需要处理的csv文件的第一行(各列名称),获取列名为下的数据
save_columns = df[['frameNum', 'carId', 'speed', 'headXft', 'headYft','tailXft','tailYft','laneId']]
4.删除帧数<120的数据
4.1 获取帧数
思路:先按carId分组,分比计算每个carId的frameNum,用frameNum最大值-frameNum最小值=帧数
check0= save_columns.groupby(['carId'])['frameNum'].min().reset_index()#首先按carId分组,获得frameNum最小值,重置索引
check1= save_columns.groupby(['carId'])['frameNum'].max(