引言
最近需要使用node.js
访问网页、解析html
文档进而提取网页上面的数据。
由于使用python
写爬虫的时习惯使用xpath
进行html
文档解析,于是也许搜了一下xpath
解析方式的node.js
实现。
发现了两个第三方库:
分别是xpath.js
和xpath
,xpath
是fork的xpath.js
项目进一步开发的,最后commit时间较原始项目更近,使用方式也更加人性化。
关于xpath
项目,可以在项目主页上看到一些使用示例,也可以看到文档。
我们选用goto100/xpath
进行html
解析。
依赖
npm install xpath
npm install xmldom
作者推荐使用xmldom
作为xml
引擎。
例子
例1
const xpath = require('xpath')
const dom = require('xmldom').DOMParser
let xml = "<book><title>Harry Potter</title></book>"
let doc = new dom().parseFromString(xml)
let nodes