python各种数据解析库的速度对比

最新推荐文章于 2023-04-23 09:47:38 发布

VIP文章勇气引

最新推荐文章于 2023-04-23 09:47:38 发布

阅读量765

点赞数

文章标签： html python 爬虫

本文链接：https://blog.csdn.net/m0_72741644/article/details/126688734

版权

本文以一个小说网站页面为例,提取里面的网址和各章节的名称

将各种数据库解析的速度进行对比,对比对象以下4种方式:

1>>>正则表达式

2>>>BeautifulSoup(忽略其中的css选择器需调用的select方法)

3>>>parsel(包含使用xpath提取和css选择器提取)

4>>>lxml库etree模块XPath

对比速度时, >表示速度快于 >>表示速度远快于 =表示速度差不多

---------------------

操作思路:

1>>>下载一个小说网页后保存为html格式文件,

2>>>依次用不同的解析数据工具提取所需数据并记录耗时.

3>>>模拟对提取到的数据(url和章节名称)进行字符串操作(网址拼接,章节名替换之类的),记录耗时

4>>>将步骤2的耗时数据与步骤3的耗时数据依次对比

代码如下

import time
import re
from bs4 import BeautifulSoup
from parsel import Selector
from lxml import etree

def fnc(): #正则提取
    with open("d:/爬虫/1.html",'r',encoding='utf-8') as f:

        href = re.findall(r'<dd><a href="(.*?)">(第.

最低0.47元/天解锁文章

优惠劵

勇气引

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python各种数据解析库的速度对比

对比提取数据工具提取速度1>>>正则表达式2>>>BeautifulSoup(忽略其中的css选择器需调用的select方法)3>>>parsel(包含使用xpath提取和css选择器提取)4>>>lxml库etree模块XPath
复制链接

扫一扫