[Xpath]
简单来说我们通过Xpath可以获取XML中的指定元素和指定节点的值。在网络爬虫中我们通过会把爬虫获取的HTML数
据转换成XML结构,然后通过XPath解析,获取我们想要的结果。
Xpath使用路径表达式在XML文档中选取节点。节点是通过沿着路径来选取的,通过路径可以找到我们想要的节点或者节点范围。
xpath(‘span’) 选取span元素的所有子节点
xpath(‘/div’) 从根节点上选取div节点
xpath(‘//div’) 从当前节点选取含有div节点的标签
xpath(‘./div’) 选取当前节点下的div标签
xpath(‘../’) 回到上一级节点
xpath(“//div[@id=’1001’]”) 获取div标签中,含有ID属性且值为1001的标签
- 谓语(Predicates)
/bookstore/book[1]
选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]
选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]
选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]
选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]
选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']
选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]
选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title
选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
XPath 通配符可用来选取未知的 XML 元素,通配指定节点。
匹配任何元素节点
xpath(/div/*)
选取div下的所有子节点
@*
匹配任何属性节点
xpath(/div[@*])
选取所有带属性的div节点
node()
匹配任何类型的节点
xpath(//div[@class=’tb_cls’]).node()
择标签为div且类属性为tb_cls的所有标签
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
xpath(//book/title |//book/price)
选取 book 元素的所有 title 和 price 元素。
xpath(//title| //price)
选取文档中的所有 title 和 price 元素
repr() 函数将对象转化为供解释器读取的形式。
多态意思是“有多种形式”。多态意味着就算不知道变量所引用的对象类是什么,还是能对它进行操作,而它也会
根据对象(或类)类型的不同而表现出不同的行为。
多态的可以让用户对于不知道是什么类(或对象类型)的对象进行方法调用,而封装是可以不用关心对象是如何
构建的而直接进行使用。
创建一个有对象(通过像调用函数一样调用类)后,将变量c绑定到该对象上。可以使用setName 和 getName
方法(假设已经有)
第一种方法__init__()方法是一种特殊的方法,被称为类的构造函数或初始化方法,当创建了这个类的实例时就
会调用该方法
类的方法与普通的函数只有一个特别的区别——它们必须有一个额外的第一个参数名称, 按照惯例它的名称是
self。
类的继承
面向对象的编程带来的主要好处之一是代码的重用,实现这种重用的方法之一是通过继承机制。
通过继承创建的新类称为子类或派生类,被继承的类称为基类、父类或超类。
继承语法
class 派生类名(基类名) ...
在python中继承中的一些特点:
1、如果在子类中需要父类的构造方法就需要显示的调用父类的构造方法,或者不重写父类的构造方法。详细说明
可查看:python 子类继承父类构造函数说明。
2、在调用基类的方法时,需要加上基类的类名前缀,且需要带上 self
参数变量。区别在于类中调用普通函数时并不需要带上 self 参数
3、Python 总是首先查找对应类型的方法,如果它不能在派生类中找到对应的方法,它才开始到基类中逐个查找
。(先在本类中查找调用的方法,找不到才去基类中找)。
如果在继承元组中列了一个以上的类,那么它就被称作"多重继承" 。
如果你的父类方法的功能不能满足你的需求,你可以在子类重写你父类的方法:
__private_attrs:两个下划线开头,声明该属性为私有,不能在类的外部被使用或直接访问。在类内部的方法中
使用时 self.__private_attrs。
foo: 定义的是特殊方法,一般是系统定义名字 ,类似 init() 之类的。
_foo: 以单下划线开头的表示的是 protected
类型的变量,即保护类型只能允许其本身与子类进行访问,不能用于 from module import *
__foo: 双下划线的表示的是私有类型(private)的变量, 只能是允许这个类本身进行访问了。