一 在爬取页面信息的过程中,需要到想要的信息进行定位,主要有两种方法。CSS选择器和XPath语言。查找某一个标签,两种方法都可以做到。
二 CSS选择器
http://www.w3school.com.cn/cssref/css_selectors.asp
伪类选择器
(a:hover)
http://www.w3school.com.cn/css/css_pseudo_classes.asp
三 XPath
补充:XML
http://www.w3school.com.cn/xml/xml_intro.asp
XPath教程
http://www.w3school.com.cn/xpath/index.asp
XPath Axis
http://www.w3school.com.cn/xpath/xpath_axes.asp
示例:
1 获取span标签的文本值。
xpath('//span/text()')