【python】如何将文件夹及其子文件夹下的所有word文件汇总导出到一个excel文件里?

根据你的需求,这里提供一套完整的Python解决方案,支持递归遍历子文件夹、提取Word文档内容(段落+表格),并整合到Excel中。以下是代码实现及详细说明:

一个单元格一个word的全部内容


完整代码

# -*- coding: utf-8 -*-
import os
from docx import Document
import pandas as pd
from tqdm import tqdm  # 需安装:pip install tqdm

def extract_word_content(doc_path):
    """提取Word文档中的段落和表格内容"""
    try:
        doc = Document(doc_path)
        content = []
        # 提取段落文本
        for para in doc.paragraphs:
            if para.text.strip():
                content.append(('paragraph', para.text))
        # 提取表格内容(按行合并)
        for table in doc.tables:
            for row in table.rows:
                row_text = ' | '.join([cell.text.strip() for cell in row.cells])
                content.append(('table_row', row_text))
        return '\n'.join([f"[{
     type}] {
     text}" for type, text in content])
    except Exception as e:
        return f"Error reading file: {
     str(e)}"

def process_folder(root_folder):
    """遍历文件夹并提取所有Word文档"""
    data = []
    # 遍历所有子文件夹
    for root, _, files in os.walk(root_folder):
        # 筛选Word文件(兼容.doc和.docx)
        word_files = [f for f in files if f.lower().endswith(('.doc', '.docx'))]
        # 显示进度条(需安装tqdm)
        for file in tqdm(word_files, desc=f"Processing {
     os.path.basename(root)}"):
            file_path = os.path.join(root, file)
            content = extract_word_content(file_path)
            data.append({
   
                "文件名": file,
                "完整路径": file_path,
                "文件内容": content
            })
    return pd.DataFrame(data)

if __name__ == "__main__":
    # 配置参数
    folder_path = r"C:\Users\esensoft\Desktop\报名推荐"  # 修改为实际路径
    output_excel = "汇总结果.xlsx"

    # 执行处理
    df = process_folder(folder_path)
    
    # 导出Excel(自动处理格式)
    with pd.ExcelWriter(output_excel, engine='openpyxl') as writer:
        df.to_excel(writer, index=False, sheet_name='文档汇总')
        # 自动调整列宽
        for column in df.columns:
            max_len = max(df[column].astype(str).map(len).max(), len(column))
            writer.sheets['文档汇总'].column_dimensions[
                writer.sheets['文档汇总'].cell(row=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Elon Musk@real

你真帅!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值