Python使用xslt提取网页数据

最新推荐文章于 2021-06-23 13:09:00 发布

weixin_34187862

最新推荐文章于 2021-06-23 13:09:00 发布

阅读量114

点赞数

文章标签： python

原文链接：https://segmentfault.com/a/1190000018320395

版权

在python网络爬虫内容提取器一文我们详细了解了核心部件：可插拔的内容提取器gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第一部分，实验了xslt方式一次性提取静态网页内容并转换成xml格式。
用lxml库实现网页内容提取
Lxml是python的一个库，可以迅速，灵活地处理XML Path Language（XPath）和Extensible Stylesheet Language Transformation （XSLT），并且实现了常见的ElementTree API.
这2天测试了在python中通过xslt来提取网页内容，记录如下：
1.抓取目标
假设要提取论坛的帖子标题和回复数，要把整个列表提取出来，存成xml格式
2.源代码1：只抓当前页，结果显示在控制台
Python的又是是用很少两代码就能解决一个问题，请注意下面的买吗看起来很长，其实python函数调用没有几个，大篇幅被一个xslt脚本占去了，在这段代码中，只有一个好长的字符串而已，至于为什么选择xslt，而不是离散的xpath或者让人挠头的正则表达式，我们期望通过这个构架，把程序员的时间节省下来一大半。

weixin_34187862

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫