Dive into Python第九章xml学习笔记

这两天搞了一伙scrapy,感觉对保存下来的xml处理不是很好,就又看了看书,总体感觉第九章对xml介绍还是太简单。

1. python对xml的操作主要有两个方法,一个叫SAX(Simple API for XML), 它一次读取少量xml数据调用对应函数进行操作;另一个叫DOM(Document Object Model), 一次读取全部数据,把xml转成python的格式(转成树结构)。(其实在cookbook中还有一个lib叫expat)。

2. 在文件目录中添加__init__.py directory就成为了包,所以:

from xml.dom import minidom #如果这么导入模块,不仅会导入xml.dom中minidom.py,还会导入dom目录下__init__.py,再所以:
                            #如果你打开__init__.py,会看到:
from domreg import getDOMImplementation,registerDOMImplementation #它也会自动导入,再再所以:
                            #我在看scrapy的时候,发现scrapy根本没有Field这个class,其实是:
import scrapy               #scrapy中没有Field这个class,其实它的__init__.py有一条: from scrapy.item import Item, Field
class Product(scrapy.Item): #所以:
name = scrapy.Field()       #scrapy.Field()=scrapy.Item.Filed()
price = scrapy.Field()
stock = scrapy.Field()

3. 最简单的解析xml方法:

xmldoc = minidom.parse(file-like obj) #返回document类型的树形结构,它有且只有一个子点,就是它的root node

4. unicode是两个8B组成的编码,不同的编码形式可以将其显示不同语言,系统默认是ASCII。python 2.7 print能很好的显示unicode,默认是ASCII,也能显示Latin-1

>>> s = u'La Pe\xf1a'
>>> print s
La Peña
#不然就需要:
>>> print s.encode('latin−1')

5. 中文简体是GB2312.

6. 如果.py中存储非ASCII码,那么就需在文头加上 # −*− coding: UTF−8 −*−。xml都是unicode存储数据。

7. Element.getElmentByTagName('ref') 可以找到所有‘ref’tag的元素,返回list形式。

8. 要得到Element的属性, 用Element.attributes.keys()得到id, Element.attributes.values()不能得到value,需要Element.attributes['id'].value !!!


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值