爬虫案例初探及Beautiful Soup支持的解析器速度比较

最新推荐文章于 2022-01-23 21:11:36 发布

Ting说

最新推荐文章于 2022-01-23 21:11:36 发布

阅读量1.9k

点赞数

文章标签：爬虫 lxml html BeautifulSoup 解析器

本文链接：https://blog.csdn.net/myself029/article/details/79982673

版权

本文探讨了使用BeautifulSoup进行网页抓取时，lxml与Python内置的html.parser解析器在效率上的差异。通过实验证明，尽管时间因电脑配置和网络状况略有浮动，但lxml通常比html.parser更快。

摘要由CSDN通过智能技术生成

今天学习了下 well2049的博客中的图片抓取和保存的实例。点击打开链接。

对其中的代码进行了修改优化，目的是检验html.parser 和 lxml 解析快慢问题（下图来自崔大神的爬虫教程）。顺便设置下载数量限制。

源代码参考上面链接。

修改后的代码参考下文。

import requests
from bs4 import BeautifulSoup
from PIL import Image
import os 
from io import BytesIO
import time
start = time.clock()  # 自行添加程序运行计时功能。
url = "http://www.yestone.com/gallery/1501754333627"
headers = {"User-Agent": "Mozi

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ting说

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫案例初探及Beautiful Soup支持的解析器速度比较

今天学习了下 well2049的博客中的图片抓取和保存的实例。点击打开链接。对其中的代码进行了修改优化，目的是检验html.parser 和 lxml 解析快慢问题（下图来自崔大神的爬虫教程）。顺便设置下载数量限制。源代码参考上面链接。修改后的代码参考下文。import requestsfrom bs4 import BeautifulSoupfrom PIL import Imageimp...
复制链接

扫一扫