最近为了获取网页数据,积累了一些经验,这里记录 一下。网页内容获取用python真的是很好用,编写代码也快,偶尔有一些Bug需要调一下。这里记录一下常用的包
bs4-----网页内容解析,还有一个好用的:xpath
requests----请求下载网页内容,一般和bs4配合使用
webbroswer---打开一个网页,可以选择指定浏览器,不可以下载网页内容。
selenium---模拟网页操作,点击,滚动网页等,基本和人为操作差不多。还可以截图。
有了这些工具,就可以自动化实现网页内容获取。但是有些网页做得比较扎实,很难获取里面的内容,比如有些仅支持网页显示,不支持获取下载,怎么办。
思路:使用网页截图工具,将接下来的图保存起来,然后从图片中提取文字,提取文字。
pytesseract----从图片提取文字
好了,今天就记录到这里,谢谢您的浏览关注!!!