我有一个由两列组成的数据帧:ID和TEXT。假设数据如下:ID TEXT
1 The farmer plants grain. The fisher catches tuna.
2 The sky is blue.
2 The sun is bright.
3 I own a phone. I own a book.
我正在使用nltk对TEXT列执行清理,因此需要将TEXT列转换为列表:
^{pr2}$
执行清理(标记化、删除特殊字符和删除非索引字)后,输出为“列表列表”,如下所示:[[['farmer', 'plants', 'grain'], ['fisher', 'catches', 'tuna']],
[['sky', 'blue']],
[['sun', 'bright']],
[['I', 'own', 'phone'], ['I', 'own', 'book']]]
我知道如何将列表恢复到pandas数据框中,但是如何将列表列表返回到pandas数据框中,而ID列仍然分配给文本?我想要的输出是:ID TEXT
1 'farmer', 'plants', 'grain'
1 'fisher', 'catches', 'tuna'
2 'sky', 'blue'
2 'sun', 'bright'
3 'I', 'own', 'phone'
3 'I', 'own', 'book'
我假设它与Python数据结构之间的转换有关,但我不确定从哪里开始。这里的具体工作产品不如dataframe-->;native Python data structure--gt;do something to native Python data structure--gt;dataframe(原始属性不变)的概念重要。在
非常感谢你们提供的任何见解!如果我能改进我的问题,请告诉我!在