任务:利用post请求爬取动态评论
实现:
酒店网站的评论是动态的,是实时更新的,所以在网页源代码里只有一部分,所以要想得到所有的就得在网页的检查元素里(我的是火狐浏览器),右击检查元素,如下图
一般get请求就可以得到网页源代码里边我们想要的,但是不能得到动态信息,所以要用post请求,此时我们需要参数里面的listRequest.hotelIDs,这是为什么呢?因为在网页源代码里,每家酒店是以不同的data-hotelid来区分,每个酒店都有不同的data-hotelid,post请求可以得到如下
代码如下
#使用的库
import urllib import requests import time from bs4 import BeautifulSoup import sys r