【python】python3爬虫----获取携程网评论信息

最新推荐文章于 2024-04-28 00:09:38 发布

@JCC

最新推荐文章于 2024-04-28 00:09:38 发布

阅读量2.1k

点赞数 5

分类专栏： python 文章标签： python post

本文链接：https://blog.csdn.net/qq_40886696/article/details/104789838

版权

本文介绍了如何使用Python的requests库和re正则表达式爬取并筛选携程网上关于龙脊梯田的评论信息，详细讲述了分析网页、构造请求头和请求体的过程，最后将评论数据保存到TXT文档。

摘要由CSDN通过智能技术生成

前段时间参加的一个大创项目，要求爬取携程网桂林龙脊的网上评论数据，直接进携程网一搜，还是龙脊梯田的评论居多，后面直接选择爬取龙脊梯田的评论数据作为参考了，哈哈。

下面是具体实现：

分析网页数据

参考链接：https://you.ctrip.com/sight/longjititian970/14892.html
打开链接找到评论数据如下：
在这里插入图片描述
打开开发者工具后点击网页的下一页可以获得下面网页请求信息，这便是获取网页评论的URL了
下面把这些信息搬进python就好了~~

代码实现

代码我先用python的requests第三方网页请求类库，结合re正则表达式筛选需要的评论信息。
导入包

import requests
import random
import re
import time

写入上面URL

if __name__ == '__main__':
    url='https://you.ctrip.com/destinationsite/TTDSecond/SharedView/AsynCommentView'
    m=mySpider(url)
    m.spider()

请求头信息，照搬

    def getHeader(self):
        headers={
                'authority': 'you.ctrip.com',
                'method': 'POST',
                'path': '/destinationsite/TTDSecond/SharedView/AsynCommentView',
                'scheme': 'https',
                'accept': '*/*',
                'accept-encoding': 'gzip, deflate, br',