wod清洗,docx

import docx
from win32com import client as wc
import re
import os
import os.path
def getListFiles(path):
    ret = []
    for root, dirs, files in os.walk(path):
        for filespath in files:
          if filespath.endswith(".docx"):
            ret.append(os.path.join(root,filespath))
    return ret
ret = getListFiles(r'C:\Users\Administrator\Desktop\国网辽宁电力\新建文件夹')
f2=open(r'C:\Users\Administrator\Desktop\国网辽宁电力\电子版知识库20171120版本(大部分知识内容请在省中心文件夹查看)\wordsdoc.txt','a',encoding='utf-8',buffering=4096)
for file in ret:
    print(file)
    # word = wc.Dispatch(file)
    # doc = word.Documents.Open(file)

    # doc = file
    doc = docx.Document(file)
    # parag_num = 0
    # f2=open('F:\\test2'+'(改).txt','w',encoding='utf-8')

    for para in doc.paragraphs :
        line=para.text
            # while line:
        line = re.split('[\t。\n]', line)  # line=line.split('\t')

        for phrase in line:
                    # if phrase=='\n':
                    # break
            tmp = re.findall('(http|www|\d{8,})', phrase)
            if len(tmp) > 0:
                break
            for letter in phrase:
                if u'\u4e00' <= letter <= u'\u9fff':
                    f2.write(phrase + '\n')

                    phrase = re.sub('\n', '', phrase)
                    print(phrase)
                    break
        # f2.flush()
f2.close()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值