转换doc为docx文件保存为txt并提取信息

最新推荐文章于 2022-05-30 16:33:14 发布

置顶码皇巅峰

最新推荐文章于 2022-05-30 16:33:14 发布

阅读量318

点赞数

文章标签： python

本文链接：https://blog.csdn.net/butiful1/article/details/121242115

版权

该博客主要涉及文件处理，将.doc文件转换为.docx格式并移动到指定文件夹，然后将.docx文件另存为.txt。接着从.txt文件中抽取特定信息，如单位名称、软件名称、邮寄地址等，最后将这些信息保存为CSV格式。

摘要由CSDN通过智能技术生成

-- coding: utf-8 --：

author:

time:

import os
import shutil
import win32com
import win32com.client

def data_():

# 读取数据文件修改文件后缀名统一文件格式，然后移动文件到新的文件夹中
path1 = r'metadata'
path2 = r'E:\data_project\data_docx'
path1_ls = os.listdir(path1)
path2_ls = []
path2_s = []

for i in range(len(path1_ls)):
    if path1_ls[i].endswith('.doc') and not path1_ls[i].startswith('~$'):
        # 使用os.path.join()方法把源文件进行移动操作
        path1_ls[i] = os.path.join(path1_ls[i])
        path2_ls.append(os.path.join(path2,path1_ls[i].replace('.doc','.docx')))
    elif path1_ls[i].endswith('.docx'):
        # 移动操作
        path1_ls[i] = os.path.join(path1_ls[i])
        path2_ls.append(os.path.join(path2,path1_ls[i]))
        # 移动的文件类型
    else:
        path2_s.append(path1_ls[i])
        # 路径统一的前提，进行循环文件移动文件
for i in range(len(path1_ls)):
    shutil.copy(path1+'/'+path1_ls[i],path2_ls[i])



# 读取数据文件把docx另存为txt文件
path = r'E:\data_project\data_docx'
path0 = r'E:\data_project\data_TXT'
dir = os.listdir(path)

for line in range(len(dir)):
    try:
        # 读取文件用后缀名切割作为文件的名字
        dataStr = str(dir[line]).split('.d')[0]
        wc = win32com.client.constants
        wps = win32com.client.gencache.EnsureDispatch('kwps.application')
        try:
            dd = path + '\\' + dir[line]
            d = wps.Documents.Open(dd)
        except:
            continue
        ddd = path0+'\\'+dataStr+'.txt'
        print(ddd)
        d.SaveAs2(ddd, FileFormat=wc.wdFormatText)
        # 编辑完文档要关闭
        wps.Documents.Close()
        # 关闭保存数据流
        wps.Documents.Close(wc.wdDoNotSaveChanges)
        # 关闭数据流
        wps.Quit()
    except:
        pass

def process():

# 读取txt抽取文件中的信息
path = r'E:\data_project\data_TXT'
dir = os.listdir(path)
# 获取文件下面的所有文件
for line in range(len(dir)):
    # 读取文件用后缀名切割作为文件的名字
    dataStr = str(dir[line]).split('.d')[0]
    # 把读取读出来的信息保存为——CSV格式等
    with open(r'data_CSV/'+dataStr+'.csv', 'w', encoding='UTF-8')as df:
        # 读取文件采用的gbk格式
        with open(path+'/'+dir[line],'r',encoding='gbk')as tf:
            for line in tf.readlines():
                # 给字符串去重以字符串的形式文件进行查找
                print(line.strip())
                if line.find('单位名称')>=0 or line.find('软件名称')>=0 :
                     df.writelines(line.strip()+'\n')
                elif line.find('邮寄地址')>=0 or line.find('信用代码')>=0 or line.find('邮政编码')>=0:
                    df.writelines(line.strip()+'\n')
                elif line.find('企业邮箱')>=0 or line.find('个人邮箱')>=0:
                     df.writelines(line.strip()+'\n')
                elif line.find('法人代表')>=0 or line.find('联系人员')>=0 or line.find('技术人员')>=0:
                    df.writelines(line.strip()+'\n')
                elif line.find('联系方式')>=0 or line.find('电子邮箱')>=0 and line.find('电子邮箱')<=30:
                    df.writelines(line.strip()+'\n')

if name == ‘main’:
# 调用函数
data_()
process()

码皇巅峰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
转换doc为docx文件保存为txt并提取信息

-- coding: utf-8 --：author:time:import osimport shutilimport win32comimport win32com.clientdef data_():# 读取数据文件修改文件后缀名统一文件格式，然后移动文件到新的文件夹中path1 = r'metadata'path2 = r'E:\data_project\data_docx'path1_ls = os.listdir(path1)path2_ls = []path2_s =
复制链接

扫一扫