【python】python3爬虫----获取携程网评论信息

本文介绍了如何使用Python的requests库和re正则表达式爬取并筛选携程网上关于龙脊梯田的评论信息,详细讲述了分析网页、构造请求头和请求体的过程,最后将评论数据保存到TXT文档。
摘要由CSDN通过智能技术生成

前段时间参加的一个大创项目,要求爬取携程网桂林龙脊的网上评论数据,直接进携程网一搜,还是龙脊梯田的评论居多,后面直接选择爬取龙脊梯田的评论数据作为参考了,哈哈。

下面是具体实现:

  • 分析网页数据

参考链接:https://you.ctrip.com/sight/longjititian970/14892.html
打开链接找到评论数据如下:
在这里插入图片描述
打开 开发者工具后点击网页的下一页可以获得下面网页请求信息,这便是获取网页评论的URL了在这里插入图片描述在这里插入图片描述
下面把这些信息搬进python就好了~~

  • 代码实现

代码我先用python的requests第三方网页请求类库,结合re正则表达式筛选需要的评论信息。
导入包

import requests
import random
import re
import time

写入上面URL

if __name__ == '__main__':
    url='https://you.ctrip.com/destinationsite/TTDSecond/SharedView/AsynCommentView'
    m=mySpider(url)
    m.spider()

请求头信息,照搬

    def getHeader(self):
        headers={
                'authority': 'you.ctrip.com',
                'method': 'POST',
                'path': '/destinationsite/TTDSecond/SharedView/AsynCommentView',
                'scheme': 'https',
                'accept': '*/*',
                'accept-encoding': 'gzip, deflate, br',
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值