python网页内容获取记录pkg

这篇博客分享了使用Python进行网页数据获取的经验,包括常用库如bs4、requests、selenium等。遇到难以直接获取内容的网页,作者提出了通过网页截图结合pytesseract提取文字的解决方案,为自动化网页内容抓取提供了新思路。
摘要由CSDN通过智能技术生成

最近为了获取网页数据,积累了一些经验,这里记录 一下。网页内容获取用python真的是很好用,编写代码也快,偶尔有一些Bug需要调一下。这里记录一下常用的包

bs4-----网页内容解析,还有一个好用的:xpath

requests----请求下载网页内容,一般和bs4配合使用

webbroswer---打开一个网页,可以选择指定浏览器,不可以下载网页内容。

selenium---模拟网页操作,点击,滚动网页等,基本和人为操作差不多。还可以截图。

有了这些工具,就可以自动化实现网页内容获取。但是有些网页做得比较扎实,很难获取里面的内容,比如有些仅支持网页显示,不支持获取下载,怎么办。

思路:使用网页截图工具,将接下来的图保存起来,然后从图片中提取文字,提取文字。

pytesseract----从图片提取文字

好了,今天就记录到这里,谢谢您的浏览关注!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jeff_ROS

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值