一.应用场景
用pandas处理数据时,我们经常会遇到将一行拆分成多行,或者将一列拆分成多列的方法,今天主要讲第一个问题,第二个问题下次讲。举个例子:我现有的数据如下:
其中TrainData是我需要将它的一行分成多行的数据,上面的图片没有显示完全,我们读取TrainData的第二行,详细数据如下:
LuKou_train_DF["TrainData"][1]='1902 1850 597 393 795 795,1850 597 393 795 795 334'
也就是说TrainData里面每一行都是一个字符串,每个字符串里面的元素是用逗号分割开来的多个轨迹,比如上面的数据包括两个轨迹:1902 1850 597 393 795 795 和 1850 597 393 795 795 334。每个轨迹前五个元素是历史轨迹,最后一个,也就是第六个元素是接下来的轨迹。我现在需要生成一个DataFrame数据,作为神经网络LSTM的训练数据。我需要的格式是每一行只有一个轨迹,也就是这样的:
这里就需要将TrainData中每行按照逗