使用node.js第三方库xpath进行html文档解析

最新推荐文章于 2024-07-03 20:27:38 发布

Nick_Spider

最新推荐文章于 2024-07-03 20:27:38 发布

阅读量9.4k

点赞数 2

分类专栏：爬虫 node 文章标签： node.js 爬虫 xpath

本文链接：https://blog.csdn.net/weixin_39198406/article/details/87173678

版权

引言

最近需要使用node.js访问网页、解析html文档进而提取网页上面的数据。
由于使用python写爬虫的时习惯使用xpath进行html文档解析，于是也许搜了一下xpath解析方式的node.js实现。
发现了两个第三方库：

yaronn/xpath.js
goto100/xpath

分别是xpath.js和xpath，xpath是fork的xpath.js项目进一步开发的，最后commit时间较原始项目更近，使用方式也更加人性化。
关于xpath项目，可以在项目主页上看到一些使用示例，也可以看到文档。
我们选用goto100/xpath进行html解析。

依赖

npm install xpath
npm install xmldom

作者推荐使用xmldom作为xml引擎。

例子

例1

const xpath = require('xpath')
const dom = require('xmldom').DOMParser

let xml = "<book><title>Harry Potter</title></book>"
let doc = new dom().parseFromString(xml)
let nodes

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Nick_Spider

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用node.js第三方库xpath进行html文档解析

引言最近需要使用node.js访问网页、解析html文档进而提取网页上面的数据。由于使用python写爬虫的时习惯使用xpath进行html文档解析，于是也许搜了一下xpath解析方式的node.js实现。发现了两个第三方库：yaronn/xpath.jsgoto100/xpath分别是xpath.js和xpath，xpath是fork的xpath.js项目进一步开发的，最后com...
复制链接

扫一扫