转载,python处理excel转换成xml文件

帖子来源http://blog.csdn.net/u014489596/article/details/41285933,http://blog.csdn.net/u014489596/article/details/41284423。

1.解析excel文件

条件:安装python和第三方库文件xlrd。

解析步骤:

1. 引入xlrd包,调用他的open_workbook方法打开excel文件读取里面的数据,这个方法参数很多,主要是第一个,传入要解析的excel文件。

data = xlrd.open_workbook("自己的excel路径")

2.然后需要获取excel中的某个工作表,xlrd提供了三种方法:

table = data.sheets()[index] index就是就是左下角的工作表的索引顺序,从0开始。

table = data.sheet_by_index(index) 看下他们的实现发现这个和上面的其实一样的,只是上一种是data.sheets()或获取此excel中的所有表,生成一个list,再通过列表的下标取到我们需要的表。

table = data.sheet_by_name(u'sheet_name'),这个是通过表的名称来获取的

3.可以通过table.nrows来获取表的行数,table.ncols来获取表的列数

4.这样可以获取到整行的数据 talbe.row_values(index) ,index就是要获取的所在行数,返回的是一个list列表保存数据。通用的道理,table.col_values(index),就是index列的数据。返回list。

5.获取单元格的数据。通过table.cell(row_index, col_index)可以得到excel中row_index行col_index列的数据,这样得到的其实是这样的数据:类型: 字段名(unicode编码),我们这里使用的是utf-8编码,比如我们这个excel表中的第一行第一列的table.cell(0, 0)得到的就是:text:u'itemID'。要是获取值就使用table.cell(row_index, col_index).value即可。

由于我们这里只是简单的解析出已经存在的excel表,所以非常简单。写了非常简单的列子,将解析的数据打印出来。先看看excel文件内容https://img-blog.csdn.net/20141119173113937?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQ4OTU5Ng==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

2.转化成xml文件

使用的库:python自带库xml.dom来生成xml文件

 由于脚本比较简单,就不细说了,代码里也有比较详细的注释。先看看excel文件所在的目录:https://img-blog.csdn.net/20141120143216090?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQ4OTU5Ng==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

只需要将解析的代码稍作修改添加生成xml的代码就OK了。看看python脚本:

[python] view plain copy

  1. #! encoding=utf-8  
  2.   
  3. import xlrd  
  4. import xml.dom.minidom  
  5. import os  
  6.   
  7.   
  8. def open_excel(file):  
  9.     try:  
  10.         data = xlrd.open_workbook(file)  
  11.         return data  
  12.     except Exception, e:  
  13.         print str(e)  
  14.           
  15.   
  16. def translate_excel_to_xml(excel_absolute_path, name, generate_xml_dir, colnnameindex=0, by_index=0):  
  17.       
  18.     #解析excel文件  
  19.     data = open_excel(excel_absolute_path)  
  20.   
  21.     #获取需要的工作表  
  22.     table = data.sheets()[by_index]          
  23.       
  24.     #行数  
  25.     nrows = table.nrows  
  26.     #列数  
  27.     ncols = table.ncols  
  28.       
  29.     #创建dom文档对象  
  30.     doc = xml.dom.minidom.Document()  
  31.       
  32.     #创建根元素  
  33.     info = doc.createElement_x('info')  
  34.       
  35.     #将根元素添加到文档中区  
  36.     doc.appendChild(info)  
  37.   
  38.     for nrow in range(4, nrows):  
  39.         #创建元素  
  40.         item = doc.createElement_x('item')  
  41.         for ncol in range(0, ncols):  
  42.             #colnames = table.col_values(ncol)  
  43.             #print colnames   
  44. #            print table.cell(nrow, ncol).value  
  45.             key = u"%s" % table.cell(0, ncol).value  
  46.             value = table.cell(nrow, ncol).value  
  47.             if isinstance(value, float):  
  48.                 value = ' ' % value  
  49. #            print type(key), type(value)  
  50.             #将数据都作为xml中元素的属性,属性名就是第一行的值,属性值就是某一行某一列的值  
  51.             item.setAttribute(key.encode('utf-8'), value.encode('utf-8'))  
  52. #            print table.cell(0, ncol).value  
  53.         #将此元素作为根元素的子节点  
  54.         info.appendChild(item)  
  55.       
  56.     #要生成的xml文件名  
  57.     generate_xml_name = name.strip().split('.')[0] + '.xml'  
  58.     #要生成的xml文件到某个目录的绝对路径  
  59.     geneate_xml_dir = os.path.join(generate_xml_dir, generate_xml_name)  
  60.   
  61.     f = open(geneate_xml_dir, 'w')  
  62. #    doc.writexml(f)  
  63.     f.write(doc.toprettyxml())          #可以使生成xml有好看的格式,要是不需要,可以使用上一行的代码  
  64.     f.close()  
  65.   
  66.   
  67. def find_assign_xlsx(xlsx_path, generate_xml_dir):  
  68.     for name in os.listdir(xlsx_path):  
  69.         if name.endswith('.xlsx'):  
  70.             #生成excel文件的绝对路径  
  71.             excel_absolute_path = os.path.join(xlsx_path, name)  
  72.             #解析excel并转成xml  
  73.             translate_excel_to_xml(excel_absolute_path, name, generate_xml_dir)  
  74.   
  75.               
  76.   
  77. if __name__ == "__main__":  
  78.     excel_src_path = r'D:\mobile_game_dir\newSVN\callOfSteel\trunk\Design\数据'  
  79.     generate_xml_dir = r'D:\data'  
  80.   
  81.     find_assign_xlsx(excel_src_path.decode('utf-8'), generate_xml_dir)  

代码其实是很简单的,代码里有很详细的注释了,这里需要特别注意的是,由于目录路径很有中文,python内部使用的unicode编码,这Windows的简体中文版本使用的中文编码不相同,需要将路径转成unicode编码,还有一种写法,这样也行find_assign_xlsx(u'D://mobile_game_dir//newSVN//callOfSteel//trunk//Design//数据', generate_xml_dir),这里没用使用r,python会将路径名转换,我直接写成左双斜杠来避免路径名出错,这个可以自己随便写。

      我这里把生成的xml文件放到D盘下的data目录中了,看看生成后的data目录吧:https://img-blog.csdn.net/20141120144442921?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQ4OTU5Ng==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

很方便吧,所有的excel文件都转成xml了。为了验证是否正确,我们随便打开一个excel文件看看:https://img-blog.csdn.net/20141120144609147?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQ4OTU5Ng==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

再看看D盘data目录下的道具.xml文件:https://img-blog.csdn.net/20141120144703765?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQ4OTU5Ng==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center

  

      可以看的出来,没什么问题。由于python的简明和第三方库强大,写这种小脚本是非常方便和简单的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值