- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 python doc转docx
# pip install python-officeimport officeoffice.word.doc2docx('D:\wrodexact\Docx\EN123.doc','D:\wrodexact\Docx\EN123.docx')
2024-08-12 17:03:05 108
原创 真;顺序读取docx文本
cell数量为表格最大列数+1,故对于较少列的行存在重复值,需去重。for cell in cells: # 遍历每一行的每一个单元格。获取每一行中每一列的内容。
2024-08-08 14:18:43 279
原创 读取docx内容
paragraph_texts = list(filter(None,paragraph_texts)) # 递归函数解决列表多重嵌套问题。paragraph_texts = get_paragraphs("docx_path") # 获取非表格数据。paragraph_texts = get_table_text("docx_path") # 获取表格数据。获取Word文档中的表格内容。
2024-08-08 08:43:23 241
原创 python 顺序读取DOCX的内容数据
cell数量为表格最大列数+1,故对于较少列的行存在重复值,需去重。document = Document(docx_path) #读入文件。def iter_block_items(parent): # 获取内容的格式。for cell in cells: # 遍历每一行的每一个单元格。获取Word文档中的表格内容。获取每一行中每一列的内容。# # #获取所有段落。# # 循环读取列表。
2024-08-07 16:35:34 334
原创 关键词提取与时间关键词的提取
UTIL_CN_NUM={'零':0,'一':1,'二':2,'三':3,'四':4,'五':5,'六':6,'七':7,'八':8,'九':9,'0':0,'1':1,'2':2,'3':3,'4':4,'5':5,'6':6,'7':7,'8':8,'9':9}word = (datetime.today() + timedelta(days=keyDate.get(k, 0))).strftime('%Y{y}%m{m}%d{d}').format(y='年',m='月',d='日')
2024-08-07 10:05:39 220
原创 Python doc转换为DOCX并替换删除
office.word.doc2docx(file,"") # word的doc转为docx,if file.endswith(".doc"): #排除文件夹内的其它干扰文件,只获取".doc"后缀的word文件。os.remove(file) # 文件删除。path="D:\wrodexact\Docx" # 文件夹绝对路径。print("删除成功!
2024-08-06 15:11:07 227
原创 Python DOC转化为DOCX的方法
office.word.doc2docx(file,"Docx") # word的doc转为docx,if file.endswith(".doc"): #排除文件夹内的其它干扰文件,只获取".doc"后缀的word文件。path="D:\wrodexact\Docx" # 文件夹绝对路径。
2024-08-06 15:03:40 337
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人