快速检索 html,python中网页html的快速检索

我有一个解析很多网页的应用程序,对于解析,我使用beautiful soup,它工作得很好,我不是在寻找解析器的替代品,我可以从我自己的计时和基准测试中看到,大部分时间是用web请求获取实际的html,而不是用beautiful soup实际解析它。

这是我的密码:def get_html(url: str):

req = urllib.request.Request(

url,

data=None,

headers={'User-Agent': 'Chrome/35.0.1916.47'})

uClient = urllib.request.urlopen(req, context=ssl.SSLContext(ssl.PROTOCOL_TLSv1))

html = uClient.read()

uClient.close()

return html

现在,为了进行测试,我对这个进行了计时(使用一些随机url):for i in range(20):

myhtml = get_html(url)

这平均花了我11.30秒,这是非常慢的,在我的应用程序中,我可能需要数百个来自url的htmls,所以显然我需要一个更快的解决方案。。。

顺便说一句,如果我向循环中添加一个漂亮的soup解析器,如下所示:for i in range(20):

myhtml = get_html(url)

page_soup = soup(html, "html.parser")

这只需要12.20秒的平均时间,所以我可以肯定地说问题出在html上,而不是解析器上。你知道吗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值