今天学习了用re爬取动态页面的方式,发现爬取动态页面的时候需要注意的一些东西,总结下来,以免以后碰见了再忘记。
主要是注意以下的几点吧。
对于所有的页面都用搞成浏览器的形式访问,这个之前的代码中也提到过。
下面的代码是爬取百度美食动态页面的对应页面的菜名。对于动态网页,要找到其对应爬取的url(最好使用Google浏览器),找到开发者工具,然后点击对应的美食的页面,点击如下(图中)几个位置,
Request URL就是实际上爬取的url,通过点击美食的对应页面可以发现,变化的是pn后的值,相邻两页之间的pn值相差8