这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,推荐使用谷歌浏览器,按F12显示源码信息,选中js,因为每一页的评论都是动态加载的(注意到不管点第几页浏览器的地址栏都是不变的),用到了ajax技术,我们随意点一页看一下,比如第二页:
可以看到密密麻麻的信息,大家如果想详细了解每一项的意思可以自行谷歌,咱们在这就不细说了,其实大部分信息看名字就能读懂,比如编码格式,语言,cookie等,完整的有四大项:
我们要爬取评论信息,首先在请求消息头部封装必要的内容,这样吧,先上全部代码:
# -*- coding: utf-8 -*-
#