python网页内容获取记录pkg

最新推荐文章于 2024-10-25 15:45:55 发布

Jeff_ROS

最新推荐文章于 2024-10-25 15:45:55 发布

阅读量138

点赞数

分类专栏： Python 开发记录文章标签： python网页内容获取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jeff_ROS/article/details/115110786

版权

Python 开发记录专栏收录该内容

9 篇文章 2 订阅

订阅专栏

这篇博客分享了使用Python进行网页数据获取的经验，包括常用库如bs4、requests、selenium等。遇到难以直接获取内容的网页，作者提出了通过网页截图结合pytesseract提取文字的解决方案，为自动化网页内容抓取提供了新思路。

摘要由CSDN通过智能技术生成

最近为了获取网页数据，积累了一些经验，这里记录一下。网页内容获取用python真的是很好用，编写代码也快，偶尔有一些Bug需要调一下。这里记录一下常用的包

bs4-----网页内容解析，还有一个好用的：xpath

requests----请求下载网页内容，一般和bs4配合使用

webbroswer---打开一个网页，可以选择指定浏览器，不可以下载网页内容。

selenium---模拟网页操作，点击，滚动网页等，基本和人为操作差不多。还可以截图。

有了这些工具，就可以自动化实现网页内容获取。但是有些网页做得比较扎实，很难获取里面的内容，比如有些仅支持网页显示，不支持获取下载，怎么办。

思路：使用网页截图工具，将接下来的图保存起来，然后从图片中提取文字，提取文字。

pytesseract----从图片提取文字

好了，今天就记录到这里，谢谢您的浏览关注！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jeff_ROS 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。