四大解析器（BeautifulSoup、PyQuery、lxml、正则）性能比较

最新推荐文章于 2022-09-04 19:00:00 发布

dian19881021

最新推荐文章于 2022-09-04 19:00:00 发布

阅读量1.9k

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/zhangyafei/p/10521310.html

版权

该博客对比了Python中常用的四种网页解析库——BeautifulSoup、PyQuery、lxml和正则表达式的解析速度。通过实际测试，结果显示lxml的xpath方法在解析效率上表现最佳，而BeautifulSoup相对较慢。测试结果受到电脑配置和Python版本等因素影响，但整体性能差距不大。

摘要由CSDN通过智能技术生成

用标题中的四种方式解析网页，比较其解析速度。当然比较结果数值与电脑配置，python版本都有关系，但总体差别不会很大。

下面是我的结果，lxml xpath最快，bs4最慢

==== Python version: 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] =====

==== Total trials: 10000 =====
bs4 total time: 5.5
pq total time: 0.9
lxml (cssselect) total time: 0.8
lxml (xpath) total time: 0.5
regex total time: 1.1 (doesn't find all p)

　以下是测试代码

# -*- coding: utf-8 -*-

"""
@Datetime: 2019/3/13
@Author: Zhang Yafei
"""
import re
import sys
import time
import requests
from lxml.html import fromstring
from pyquery import PyQuery as pq
from bs4 import BeautifulSoup as bs


hea