-
Overview
以前做爬虫,就是先用
requests
把网页内容拿下来,然后beautifulsoup4
进行解析,再通过ctrl+f
找到所需要的目录,通过find_all
定位到位置,虽说大部分时候可以实现功能,但毕竟流程不专业.对网页进行解析的知识不可或缺.
-
网页分析
对于静态网页,浏览器右键“查看网页源代码”,这里能看到的就是
GET
能直接得到的HTML
内容。不同于简单的静态网页, 使用
JavaScript
展示网页,很多内容不会出现在HTML
源代码中。动态网页的抓取需要用到:- 通过浏览器审查元素解析真实网页
- 使用selenium模拟浏览器
-
审查元素&Inspect&Elements
-
callback, also known as a “call-after” fun
-
深入理解爬虫:网页分析||审查元素
最新推荐文章于 2024-01-19 16:47:34 发布