对xml文件中的文本数据进行提取并整合成excel表格

该代码示例展示了如何使用Python读取Excel文件,然后遍历指定目录下的XML文件,提取HistCounts标签中的数据,根据年份和城市信息匹配到原始Excel数据,并将数据分别填入农田至湿地等类别列中,最后保存更新后的数据到新的Excel文件。
摘要由CSDN通过智能技术生成
  1. 需求分析:

 对HistCounts标签的数据,以“|”为分界,分别放进excel表格里

2.代码:

import os  
import os.path
import xml.dom.minidom
import pandas as pd  

file_path = 'C:/Users/JING5/Desktop/城市与用地匹配.xlsx'   # r对路径进行转义,windows需要
raw_data = pd.read_excel(file_path, header=0)

path="C:/Users/JING5/Desktop/城市/unzip"  
files=os.listdir(path)  #得到文件夹下所有文件名称
for i in files:
	path_city = path + "/" + i
	for j in range(2011,2020):
		path_xml = path_city + "/【立方数据学社】CLCD_v01_{}_albert.tif.aux.xml".format(j)
		dom = xml.dom.minidom.parse(path_xml)
		root = dom.documentElement
		cc=dom.getElementsByTagName('HistCounts')
		c1=cc[0]
		str_data = c1.firstChild.data
		list_data = str_data.split("|")
		for k in range(len(raw_data)):
			if raw_data['city'][k] == i[8:] and int(raw_data['year'][k]) == j:
				raw_data['农田'][k] = list_data[0]
				raw_data['森林'][k] = list_data[1]
				raw_data['灌木'][k] = list_data[2]
				raw_data['草原'][k] = list_data[3]
				raw_data['水域'][k] = list_data[4]
				raw_data['冰雪'][k] = list_data[5]
				raw_data['裸地'][k] = list_data[6]
				raw_data['不透水面'][k] = list_data[7]
				raw_data['湿地'][k] = list_data[8]
				break

raw_data.to_excel("最新数据.xlsx")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值