Python爬虫-某程景区评论数据

府学路十巴扎黑

已于 2023-01-08 19:34:26 修改

阅读量589

点赞数 1

分类专栏： Python爬虫文章标签： python 爬虫

于 2023-01-06 11:08:58 首次发布

本文链接：https://blog.csdn.net/swing_TUR/article/details/128574100

版权

Python爬虫专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何使用Python爬虫获取某程景区评论数据，包括搜索目的地、分析网页结构、提取评论数据，以及函数封装和测试。强调了爬虫的关键在于定位数据保存地址，并提醒网站结构会变化，需要灵活应对。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python爬虫 - 某程景区评论数据

简介

这里以某程的景区评论数据为例，实现了对于景区评论数据的获取。
下面展示一下本次分享代码中的评论数据下载情况吧

评论数据下载展示
评论数据保存

爬虫实施

搜索旅游目的地，例如这里搜索“某某森林公园”，并跳转到相应的评论页
右键单击网页，选择**“检查”**，或者按F12

第一步
第二步
第三步
第四步

通过以上分析，其实我们已经找到了评论数据的真正保存位置，找到了相应的链接、请求体，以及返回体，接下来我们就做一个简单的测试，看能否爬取到数据。

源代码

## 1导入第三方包
import json
import requests
from bs4 import BeautifulSoup
import bs4

## 2、参考网页源码构造请求体( 参考payload页)
payload = {
    "arg":{
        "channelType": 2,
        "collapseType": 0,
        "commentTagId": 0,
        "pageIndex": 3,
        "pageSize": 10,
        "poiId": 78198,
        "sortType": 3,
        "sourceType": 1,
        "starType": 0
    },
    "head": {
        "auth": "",
        "cid": "09031167319556132059",
        "ctok": "",
        "cver": "1.0",
        "extension": [],
        "lang": "01",
        "sid": "8888",
        "syscode": "09",
        "xsid": ""
    }
}

## 3、爬取网页数据 （参考 headers页）
post_url = "https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList"
html = requests.post(post_url, data=json.dumps(payload)).text

## 4、解析网页数据 （为了展示，我此处只选取评论数据）
html_data = json.loads(html)
html_data['result']['items'][0]['content']  # 第0条评论

当某个景区有数千条评论时，我们参考以上方法，更改页码进行下载即可

如果想要获取其他景区的评论信息，则只需要修改相应的景点编号即可

第一步，使用上述方法找到景区的编码
第二步，更新爬虫参数
第三步，查看返回结果

以上代码验证通过，接下来就是将以上代码封装成函数，便于循环调用，以实现景区评论数据的获取啦。

函数封装及测试

代码封装

import pandas as pd
import numpy as np
import os
import json
import time
import requests
from bs4 import BeautifulSoup
import bs4

# 1. 通过检查某程评论页面源码，找到post_url和post_data参数结构
def get_xiecheng_comments(post_url, post_data):
    try:
        res = requests.post(post_url, data=json.dumps(post_data)).text
        return res
    except:
        return ""
    

# 2. 从返回的字符串型评论数据中解析出所需要的评论数据，
def select_data(html_str):
    comments =[]
    scores = []
    times = []
    length = []
    if html_str:
        html = json.loads(html_str)
        comment_data = html['result']['items']
        for comment in comment_data:
            com = comment['content']
            comments.append(com)
            leng = len(com)
            length.append(leng)
            sco = comment['score']
            scores.append(sco)
            tm = comment['publishTypeTag'][:10]
            times.append(tm) 
        return comments, length, scores, times


#3.构造某程请求体，模拟请求各个页面的评论内容(只适用于XIE程)
def payload_data(page_number, poi_id):
    data = {
        "arg":{
            "channelType": 2,
            "collapseType": 0,
            "commentTagId": 0,
            "pageIndex": page_number,
            "pageSize": 10,
            "poiId": poi_id,
            "sortType": 3,
            "sourceType": 1,
            "starType": 0
        },
        "head": {
            "auth": "",
            "cid": "09031167319556132059",
            "ctok": "",
            "cver": "1.0",
            "extension": [],
            "lang": "01",
            "sid": "8888",
            "syscode": "09",
            "xsid": ""
        }
    }
    return data

## 4.爬取某一条线路下的全部评论数据
def get_tourist_route_comments(post_url, total_pages, route_query_id):
    html_data = []
    comments = []
    scores = []
    times = []
    length = []
    for page in range(1, total_pages+1):
        # 爬取网页内容
        payload = payload_data(page, route_query_id)
        html_str = get_xiecheng_comments(post_data=payload, post_url=post_url)
        html_data += html_str
        # 解析网页内容
        page_comments, page_com_length, page_scores, page_times = select_data(html_str)
        comments += page_comments
        scores += page_scores
        times += page_times
        length += page_com_length
    return html_data, comments, scores, times, length

## 5. 保存数据到Excel文件中
def save_data_to_excel(comments, scores, times, com_length, query_id):
    # build data
    save_data = pd.DataFrame({
        "comment":comments,
        "score": scores,
        "time": times,
        "comment_length": length
    })
    # duild save path
    save_path = "./xiecheng/" + str(query_id) + ".xlsx"
    save_data.to_excel(save_path, index=False)

代码调用

#### 按照queryID下载数据并保存到Excel中
# 1、爬取数据
print("========================== start get data ==========================")
post_url = "https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList"
## 如果需要下载其他线路的评论数据，只需要更新下面两个参数，重复执行即可
total_pages = 298        # 该线路下的评论数据总页数
query_id = 78137         # 该线路ID
html_data, comments, scores, times, length = get_tourist_route_comments(post_url, total_pages, query_id)

# 2、保存数据
print("========================== start save data ==========================")
save_data_to_excel(comments, scores, times, length, query_id)
print("========================== done ==========================")

小结

其实爬虫的关键就是找到所需数据真正的保存地址（url）
解析网页的方法有很多，并不一定要使用beautifulsoup，要根据具体情况来看
网站都是多变的，我第一次爬取XIE程数据是在2022年12月，第二次在2023年1月，前后相差不过一月，XIE程所封装的函数名、网页数据结构都发生了变化，但是只要我们找到了其中的规律，就能够把其中的数据下载下来。因此，想提醒的大家的是，没有一层不变的框架和代码，只是给大家提供这样一种思虑。爬虫，就是工程师们相互博弈的过程。