xpath
-可以提取xml和html网页中的数据的语言
xpath语法
xpath helper插件:帮助我们从”elements”中定位数据
1.选择节点(便签)
/html/head/meta :能够选中html下head下所有的meta标签
2.// :能够从任意节点开始选择
//li 表示当前所有页面中的标签
/html/head//link :head下的所有link标签
3.@符号的用途
–选择具体某个元素
//ul[@class=”toolbar”]/li :选择class=”toolbar”的ul下的li
–获取某一属性的值
a@/href:选择a的href的值
4.获取文本 text()
//div[@class=”w-header”]/span/text():获取span下的文本
5. ./xx当前节点下XX的标签
lxml
pip install lxml
基本用法:
from lxml import etree
element=etree.HTML(“html字符串或者xml文本”)—element对象
element.xpath()—可以使用xpath语法获取数据
”’
实例演示–糗事百科数据抓取
import requests
from lxml import etree
import json
#创建类
class QiubaiSpider():