查找word指定内容并输出到csv

最新推荐文章于 2024-03-29 13:55:39 发布

mr_xinL

最新推荐文章于 2024-03-29 13:55:39 发布

阅读量577

点赞数

分类专栏： office 文章标签： python

本文链接：https://blog.csdn.net/mr_xinL/article/details/104942573

版权

word中存在非标准字符，如拉丁字母。在上一节讲到的替换word关键内容基础上，这节将找出没被替换的内容，自己在word上手动标记。135条查重内容中，有9条是没被识别的。#用python我们可以抓取网页，表格，JSON这种半结构化的数据，那么word文档中的内容这种非结构化的数据我们如何抓取呢。# check_13=re.findall("thetihuan13",file_text) #筛...

摘要由CSDN通过智能技术生成

word中存在非标准字符，如拉丁字母。在上一节讲到的替换word关键内容基础上，这节将找出没被替换的内容，自己在word上手动标记。135条查重内容中，有9条是没被识别的。

#用python我们可以抓取网页，表格，JSON这种半结构化的数据，那么word文档中的内容这种非结构化的数据我们如何抓取呢。
# check_13=re.findall("thetihuan13",file_text) #筛选命名的方式需要注意，不然会从thetihuan130中提取thetihuan13，建议采用Aa1-99,Bb--
# print(check_13)
import re
import docx
import csv
def get_file(path):
    '''获取文件'''
    #获得word文档
    file = docx.Document(path)
    print(file)
    preproccess_file(file)
    return file

def preproccess_file(file):
    '''文件预处理'''
    #输出文档段落数（行数）
    paragraph_sum = len(file.paragraphs)
    #print(paragraph_sum)
    '''#输出每一段的内容'''
    para_list = []
    for para in file.paragraphs:
        # print(para.text)
        para_list.append(para.text)
    '''#合并字符串'''
    file_text = ''.join(para_list)
    # fi

最低0.47元/天解锁文章

mr_xinL

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
查找word指定内容并输出到csv

word中存在非标准字符，如拉丁字母。在上一节讲到的替换word关键内容基础上，这节将找出没被替换的内容，自己在word上手动标记。135条查重内容中，有9条是没被识别的。#用python我们可以抓取网页，表格，JSON这种半结构化的数据，那么word文档中的内容这种非结构化的数据我们如何抓取呢。# check_13=re.findall("thetihuan13",file_text) #筛...
复制链接

扫一扫

专栏目录