2024 年第三届全国大学生数据统计与分析竞赛题目 A：抖音用户评论的文本情感分析详细思路代码+远程部署+结果图

个人笔记(bug，思路，总结)

已于 2024-06-08 15:13:47 修改

阅读量568

点赞数 7

文章标签：数据分析数据统计第三届全国数据分析大赛 python 2024 词云图

于 2024-06-08 11:29:48 首次发布

本文链接：https://blog.csdn.net/m0_52343631/article/details/139544113

版权

更多详细具体代码请订阅专栏，可远程部署环境（远程实现）：https://blog.csdn.net/m0_52343631/category_12482955.html

问题一：请分别绘制附件中抖音用户对抖音 APP 的“评分”和“点赞数”的直方图，并通过假设检验判断“评分”和“点赞数”分布是否服从正态分布？

python代码示例（不完整，详细代码请订阅专栏：https://blog.csdn.net/m0_52343631/category_12482955.html）

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro

# 数据加载
# data = pd.read_csv("douyin.csv", usecols=['评分', '点赞数'], encoding='utf-8')
data = pd.read_csv('douyin.csv', usecols=['评分', '点赞数'], encoding='GB18030')
# 绘制“评分”的直方图
plt.figure(figsize=(10, 6))
sns.histplot(data['评分'], bins=10, kde=True, color='blue')
plt.title('评分的直方图')
plt.xlabel('评分')
plt.ylabel('频次')
plt.show()

# 绘制“点赞数”的直方图
plt.figure(figsize=(10, 6))
sns.histplot(data['点赞数'], bins=10, kde=True, color='green')
plt.title('点赞数的直方图')
plt.xlabel('点赞数')
plt.ylabel('频次')
plt.show()

问题二：请通过数据分析抖音用户对抖音 APP 的评论时间主要集中在一天的哪个时间段？“评分”最高和“点赞数”最多的抖音版本分别是哪个版本？

python代码示例（不完整，详细代码请订阅专栏：https://blog.csdn.net/m0_52343631/category_12482955.html）

import pandas as pd
from datetime import datetime

# 使用示例数据创建DataFrame
data = pd.read_csv('douyin.csv',  encoding='GB18030')
df = pd.DataFrame(data)
# print(df)
# 将评论时间转换为datetime对象，方便后续处理
df['评论时间'] = pd.to_datetime(df['评论时间'])

# 提取小时并统计评论数
df['小时'] = df['评论时间'].dt.hour
time_distribution = df['小时'].value_counts().sort_index()

print("评论时间分布：")
print(time_distribution)

问题三：请分析附件中抖音用户的评语，通过自然语言处理进行文本的情感分析，建立数学模型，判断用户的每条评语属于“积极”、“消极”还是“中立” 的态度，并计算出附件中所有评语中“积极”、“消极”和“中立”的比例。

python代码示例（不完整，详细代码请订阅专栏：https://blog.csdn.net/m0_52343631/category_12482955.html）

import pandas as pd
from textblob import TextBlob

# 使用示例数据创建DataFrame
data = pd.read_csv('douyin.csv',  encoding='GB18030')
df = pd.DataFrame(data)


# 确保评语列为字符串类型
df['评语'] = df['评语'].astype(str)

# 定义情感分析函数
def sentiment_analysis(text):
    analysis = TextBlob(text)
    if analysis.sentiment.polarity > 0:
        return '积极'
    elif analysis.sentiment.polarity < 0:
        return '消极'
    else:
        return '中立'

# 应用情感分析函数到评语列
df['情感倾向'] = df['评语'].apply(sentiment_analysis)

问题四：请绘制附件中所有抖音用户评语的“词云图”，并分别绘制评语属于“积极”、“消极”和“中立”的“词云图”，然后分析“词云图”中的高频词汇信息，基于此请给北京字节跳动公司的“抖音”部门提出你们的建议

python代码示例（不完整，详细代码请订阅专栏：https://blog.csdn.net/m0_52343631/category_12482955.html）

from wordcloud import WordCloud
import matplotlib.pyplot as plt

def generate_word_cloud(text):
    wordcloud = WordCloud(width = 800, height = 800,
                          background_color ='white',
                          min_font_size = 10).generate(text)

    # Plot the WordCloud image
    plt.figure(figsize = (8, 8), facecolor = None)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.tight_layout(pad = 0)

    plt.show()

个人笔记(bug，思路，总结)

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
1
评论
2024 年第三届全国大学生数据统计与分析竞赛题目 A：抖音用户评论的文本情感分析详细思路代码+远程部署+结果图

问题三：请分析附件中抖音用户的评语，通过自然语言处理进行文本的情感分析，建立数学模型，判断用户的每条评语属于“积极”、“消极”还是“中立” 的态度，并计算出附件中所有评语中“积极”、“消极”和“中立”的比例。问题四：请绘制附件中所有抖音用户评语的“词云图”，并分别绘制评语属于“积极”、“消极”和“中立”的“词云图”，然后分析“词云图”中的高频词汇信息，基于此请给北京字节跳动公司的“抖音”部门提出你们的建议。df['小时'] = df['评论时间'].dt.hour。print("评论时间分布：")
复制链接

扫一扫