python实现自动化读取word文档（办公自动化）

佛系人僧

已于 2022-07-03 21:37:02 修改

阅读量859

点赞数

分类专栏：学习文章标签： python 自动化开发语言

于 2022-07-03 21:27:49 首次发布

本文链接：https://blog.csdn.net/foxirensheng/article/details/125589764

版权

学习专栏收录该内容

42 篇文章 1 订阅

订阅专栏

import pdfplumber , os , re ,time , sys , io , copy
from docx import Document
from openpyxl import Workbook
from openpyxl import load_workbook
#define the work path
work_path = r'填入你的路径'


# define a function to get the every files name in the work path
def get_file_name(work_path):
    file_name = []
    file_name_path = []
    for root, dirs, files in os.walk(work_path):
        for file in files:
            file_name.append(file)
            file_name_path.append(os.path.join(root, file))
    return file_name, file_name_path

#考虑编码问题导致导入失败
'''import chardet
# define a function to get the files encoding
def get_file_encoding(file_name_path):
    file_encoding = []
    for file in file_name_path:
        # print(file)
        with open(file, 'rb') as f:
            # data = f.read()
            # print(data)
            print(chardet.detect(f.read(100)))

            # print(file_encoding)
    return file_encoding

print(get_file_encoding(file_name_path))'''


# 加载docx文件
def loaddocx(file):
    # df = pd.DataFrame()
    doc = Document(file)
    body = ''
    for paragraph in doc.paragraphs:
        body += f'{paragraph.text}\n'
        # print(body)
    return body





if __name__ == '__main__':
    file_name, file_name_path = get_file_name(work_path)
    print(file_name)
    print(file_name_path)
    for file in file_name_path:
        print(file)
        if file.endswith('.docx'):
            all_body = ''
            # print(file)
            body = loaddocx(file)
            all_body += body
            # print(all_body)