解析旅游者心声：用PySpark和SnowNLP揭秘景区评论的情感秘密

冷月半明

于 2024-03-29 10:33:38 发布

阅读量1.3k

点赞数 45

分类专栏： Pyhon 大数据文章标签： spark python nlp 自然语言处理 hadoop 大数据

本文链接：https://blog.csdn.net/kilig_CSM/article/details/137137408

版权

本文介绍如何使用PySpark和SnowNLP进行旅游评论的情感分析。通过连接Hive，处理携程和去哪儿网的评论数据，计算情感得分，并合并信息，揭示评论中的情感趋势。同时，讨论了在处理大数据时可能遇到的问题及其解决方案。

摘要由CSDN通过智能技术生成

简介：

在本篇博客中，我们将探讨如何利用PySpark和SnowNLP这两个强大的工具来分析大规模的旅游评论数据。通过结合携程和去哪儿的数据作为示例，我们将探索如何从海量的评论中提取有价值的情感信息和洞察。PySpark作为一种分布式计算框架，能够处理大规模的数据集，为我们提供了处理大数据的能力。而SnowNLP作为一种自然语言处理工具，能够帮助我们对中文文本进行情感分析，从而揭示出评论中隐藏的情感倾向和情感趋势。通过本文的学习，读者将不仅了解情感分析的基本原理和技术，还能掌握如何利用这些技术来解读和分析旅游评论数据，为旅游业的改进和优化提供实际的指导和建议。

开发环境

Python，HDFS，spark，hive。

链接hive

# Author: 冷月半明
# Date: 2023/12/7
# Description: This script does XYZ.
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType


# 创建SparkSession并连接到远程Spark服务器
spark = SparkSession.builder.appName("RemoteSparkConnection").master("yarn").config("spark.pyspark.python", "/opt/apps/anaconda3/envs/myspark/bin/python").getOrCreate()


print("链接成功")
# 使用spark.sql()从Hive表中读取数据
df = spark.sql("SHOW DATABASES;")

# 显示数据
df.show()
# 关闭SparkSession
spark.stop()

此时因为没指定源数据库位置信息，因此只有默认库。
网上解决方式有两种，其一在使用pyspark是指定元数据位置，其二在spark设置里粘入hive-site.xml，在此使用第一种方式。

当指定元数据存储位置后再次查询，就能正常显示。

计算去哪网的情感得分

def qvna():
    print("链接成功")
    df = spark.sql("SELECT * FROM cjw_data.qvna;")
    print(type(df))
   
    # 定义一个新的 UDF，用于计算每一行的平均情感值
    def calculate_average_sentiment(commentlist):
        try:
            jsonstr = str(commentlist)
            python_obj = json.loads(jsonstr, strict=False)
        except:
            return None

        contentcores = []
        for item in python_obj:
            for i in item:
                if (i["content"] != "用户未点评，系统默认好评。"):
                    contentcores.append(SentimentAanalysis(i["content"]))
        if len(contentcores) > 0:
            average = sum(contentcores) / len(contentcores)
        else:
            average = None  # 如果数组为空，返回 None
        return average

    calculate_average_sentiment_udf = udf(calculate_average_sentiment, StringType())
    # 使用 withColumn 方法添加新的字段
    df = df.withColumn("average_sentiment", calculate_average_sentiment_udf(df["commentlist"]))
    newdf = df.select("id", "title", "price", "average_sentiment")
    newdf.write.mode("overwrite").saveAsTable("cjw_data.qvnasentiment")
    print(newdf)
    print(newdf.count())
    newdf.show(20)

首先，我们通过 PySpark 的 spark

最低0.47元/天解锁文章

冷月半明

关注

45
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
解析旅游者心声：用PySpark和SnowNLP揭秘景区评论的情感秘密

在本文中，我们使用了PySpark和SnowNLP工具对大规模旅游评论数据进行了情感分析。通过连接到Hive数据库，并利用PySpark从中提取数据，我们能够处理大规模的数据集。SnowNLP作为自然语言处理工具，帮助我们进行情感分析，从而揭示了评论中的情感倾向和趋势。我们通过计算每条评论的平均情感值，并将结果存储到新的数据表中。通过合并不同数据表的信息，我们得到了综合的情感分析结果，并进行了展示和持久化存储。
复制链接

扫一扫