用html制作的蚂蜂窝旅游网页设计,爬取马蜂窝用户评论页面

本文介绍了如何使用Python爬取马蜂窝旅行的用户评论页面。通过分析请求头和参数,利用requests库发送GET请求,获取并合并多页评论数据,最后将内容保存为txt文件。在处理过程中,解决了Unicode编码和特殊字符转义的问题。
摘要由CSDN通过智能技术生成

这次先爬一下马蜂窝旅行的用户评论页面,即“蜂蜂点评”,首先进入所要爬取的页面,推荐使用谷歌浏览器,按F12显示源码信息,选中js,因为每一页的评论都是动态加载的(注意到不管点第几页浏览器的地址栏都是不变的),用到了ajax技术,我们随意点一页看一下,比如第二页:

ac8f27033808e364cc76559f400bec81.png

可以看到密密麻麻的信息,大家如果想详细了解每一项的意思可以自行谷歌,咱们在这就不细说了,其实大部分信息看名字就能读懂,比如编码格式,语言,cookie等,完整的有四大项:

ef7f4194a57b71990a4af73b742e2a9a.png

我们要爬取评论信息,首先在请求消息头部封装必要的内容,这样吧,先上全部代码:

# -*- coding: utf-8 -*-

#导入requests库(请求和页面抓取)

import requests

#导入time库(设置抓取Sleep时间)

import time

#导入random库(生成乱序随机数)

import random

#设置请求头文件的信息

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值