Python:使用pandas方法整理txt数据并生成excel

 一  总代码示例

下列代码使用pandas方法整理txt数据并生成excel

具体分析见下文

import os
import pandas as pd
# 定义一个函数来处理每个文件夹中的文件
def process_folder(folder_name, folder_path):
    # 创建一个空的 DataFrame 来存储结果
    results_df = pd.DataFrame(columns=['File Name', 'Red Cones', 'Blue Cones', 'Unknown Cones'])

    # 遍历文件夹中的所有文件
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(folder_path, filename)
            # 读取文件内容,自定义表头
            df = pd.read_csv(file_path, header=None, names=['Cone','num', 'Color', 'X', 'Y'],sep='\\t')
            # 统计三种颜色的锥桶数量
            color_counts = df['Color'].value_counts().reindex([0, 1, 2], fill_value=0)
            # 创建一个新的 DataFrame 行来存储统计结果
            new_row = pd.DataFrame({
                'File Name': filename,
                'Red Cones': color_counts[0],
                'Blue Cones': color_counts[1],
                'Unknown Cones': color_counts[2]
            }, index=[0])
            # 将新的行添加到结果 DataFrame 中
            results_df = pd.concat([results_df, new_row], ignore_index=True)

    # 返回结果 DataFrame
    return results_df

# 定义主函数
def main():
    # 定义 data 文件夹的路径
    data_folder = 'data'
    training_path = os.path.join(data_folder, 'training')
    testing_path = os.path.join(data_folder, 'testing')

    # 处理 training 和 testing 文件夹
    for folder_name in os.listdir(training_path):
        folder_path = os.path.join(training_path, folder_name)
        if os.path.isdir(folder_path):
            results_df = process_folder(folder_name, folder_path)
            # 保存 Excel 文件
            results_df.to_excel(f'{folder_name}_ConeColorsCount.xlsx', index=False)

    for folder_name in os.listdir(testing_path):
        folder_path = os.path.join(testing_path, folder_name)
        if os.path.isdir(folder_path):
            results_df = process_folder(folder_name, folder_path)
            # 保存 Excel 文件
            results_df.to_excel(f'{folder_name}_ConeColorsCount.xlsx', index=False)


# 执行主函数
if __name__ == '__main__':
    main()

 二 相关环节

2.1 引用库

import os
import pandas as pd

 2.2 遍历txt文件

2.2.1 在主函数中定义txt数据文件夹的路径(最好是放在代码同一目录下)

    # 定义 data 文件夹的路径
    data_folder = 'data'
    training_path = os.path.join(data_folder, 'training')//''中写数据文件的路径
    testing_path = os.path.join(data_folder, 'testing')

2.2.2 遍历文件夹中文件方法 

  for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            file_path = os.path.join(folder_path, filename)
            # 读取文件内容,自定义表头
            df = pd.read_csv(file_path, header=None, names=['Cone','num', 'Color', 'X', 'Y'],sep='\\t')

重点:!!注意这里csv表示txt文件的数据格式,并且用pd.read_csv的时候需要定义表头,如果文本文件中的CSV数据没有列名,Python的pandas库在读取文件时会默认将第一行的数据作为列名。因此,通常情况下,你不需要明确指定列名。pandas会自动识别第一行的数据作为列标签。

下面统计方法比较简单,并且根据数据不同、需求不同可以写不同的方法 

2.3  

 最后就是分别处理数据所在的文件夹,并生成excel,放入结果

  for folder_name in os.listdir(training_path):
        folder_path = os.path.join(training_path, folder_name)
        if os.path.isdir(folder_path):
            results_df = process_folder(folder_name, folder_path)
            # 保存 Excel 文件
            results_df.to_excel(f'{folder_name}_ConeColorsCount.xlsx', index=False)

excel文件将生成在代码所在目录下。

  • 8
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值