我正在尝试使用python读取和分析大型csv文件(11.5 GB)。 然后使用Power BI在其周围创建一些视觉效果。 但是,每当我运行任何命令行甚至更改Power BI中的数据框时,每次更改之间大约需要20-30分钟。
列标题之一是DeviceID 。 我想将大CSV拆分为多个csv文件,以便每个文件都具有属于一个唯一DeviceID值的数据。
当前,单个Full.csv文件中的数据Full.csv如下所示:
DeviceID AreaName Longitude Latitude
12311 Dubai 55.55431 25.45631
12311 Dubai 55.55432 25.45634
12311 Dubai 55.55433 25.45637
12311 Dubai 55.55431 25.45621
12309 Dubai 55.55427 25.45627
12309 Dubai 55.55436 25.45655
12412 Dubai 55.55441 25.45657
12412 Dubai 55.55442 25.45656
运行代码后,单个Full.csv文件应产生3个csv文件: 12311.csv , 12309.csv和12412.csv ,每个文件看起来都像这样:
DeviceID AreaName Longitude Latitude
12311 Dubai 55.55431 25.45631
12311 Dubai 55.55432 25.45634
12311 Dubai 55.55433 25.45637
12311 Dubai 55.55431 25.45621
和
De