python处理excel和word文档

最新推荐文章于 2024-04-18 09:29:40 发布

静~墨

最新推荐文章于 2024-04-18 09:29:40 发布

阅读量2.3k

点赞数

分类专栏：工作杂记文章标签： python excel

本文链接：https://blog.csdn.net/qq_29496135/article/details/104075368

版权

工作杂记专栏收录该内容

19 篇文章 0 订阅

订阅专栏

背景：最近在处理一批中文数据。这些数据格式不一，有使用word的，有使用excel的，也有使用json等的。这篇主要记录下使用python来处理word和excel。

一. 使用python处理excel

读取excel数据

（打开excel，通过索引获取指定的sheet内容）

  data = xlrd.open_workbook(fileName) #打开excel
  table = data.sheet_by_index(0)#获取sheet，主要通过索引获取（默认从0开始）

往excel写数据
（利用pandas的DataFrame）

这里我主要是要处理原始excel的某一列，然后再把生成的内容追加到最后一列。

def dealExcel(fileName, fileResult):
 	data = xlrd.open_workbook(fileName) #打开excel
  	table = data.sheet_by_index(0)#获取sheet，主要通过索引获取（默认从0开始）
  	dataToWrite = []
  	for rowIndex in range(1, table.nrows):#过滤掉表头
    	line = table.row_values(rowIndex)#获取指定行的内容
      	# 中间具体细节省略， 假设生成的内容为appendContent
      	line.append(appendContent)
      	dataToWrite.append(line)
  	columns = table.row_values(0)
  	columns.append("xxx")
  	dt = pd.DataFrame(dataToWrite, columns=columns)#将数据转换成dataFrame格式
  	dt.to_excel(fileResult, index=0)#直接写入excel文件（xlsx格式）

二. 利用python处理word文档

读取word内容

 doc = docx.Document(fileInput)#获取输入文档
 lenDoc = len(doc.paragraphs)
 print("总共%s个段落" % lenDoc)

往word中写内容

 
 def filterWords(fileInput,  fileResult):
    
     doc = docx.Document(fileInput)#获取输入文档
     lenDoc = len(doc.paragraphs)
     print("总共%s个段落" % lenDoc)
     
 	 resultFile = docx.Document()#结果文件
     count = 0
     for i in range(1, lenDoc):
         paraSingle = doc.paragraphs[i].text.strip()#读取段落数据
         # 中间具体过程省略，假设经过处理后的输出为paraSingle
         resultFile.add_paragraph(paraSingle)#添加段落
     resultFile.save(fileResult)#保存文件

安装docx

pip3 install docx

pip3 install docx --user

若使用时出现错误： MoudleNotFoundError: No moudle named ‘expections’

那么先卸载docx

 pip3 uninstall docx

然后找一个兼容的包下载于本地再进行安装：（参考：python安装docx模块出现Import Error: No module named 'exceptions’的解决方案）

 pip3 install python_docx-0.8.10-py2.py3-none-any.whl

 pip3 install python_docx-0.8.10-py2.py3-none-any.whl --user

上述安装包下载地址python_docx-0.8.10-py2.py3-none-any.whl --user

静~墨

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录