2024 年第三届全国大学生数据统计与分析竞赛 题目 A:抖音用户评论的文本情感分析 详细思路代码+远程部署+结果图

更多详细具体代码请订阅专栏,可远程部署环境(远程实现):https://blog.csdn.net/m0_52343631/category_12482955.html

问题一:请分别绘制附件中抖音用户对抖音 APP 的“评分”和“点赞数”的 直方图,并通过假设检验判断“评分”和“点赞数”分布是否服从正态分布?

python代码示例(不完整,详细代码请订阅专栏:https://blog.csdn.net/m0_52343631/category_12482955.html

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro

# 数据加载
# data = pd.read_csv("douyin.csv", usecols=['评分', '点赞数'], encoding='utf-8')
data = pd.read_csv('douyin.csv', usecols=['评分', '点赞数'], encoding='GB18030')
# 绘制“评分”的直方图
plt.figure(figsize=(10, 6))
sns.histplot(data['评分'], bins=10, kde=True, color='blue')
plt.title('评分的直方图')
plt.xlabel('评分')
plt.ylabel('频次')
plt.show()

# 绘制“点赞数”的直方图
plt.figure(figsize=(10, 6))
sns.histplot(data['点赞数'], bins=10, kde=True, color='green')
plt.title('点赞数的直方图')
plt.xlabel('点赞数')
plt.ylabel('频次')
plt.show()

问题二:请通过数据分析抖音用户对抖音 APP 的评论时间主要集中在一天的 哪个时间段?“评分”最高和“点赞数”最多的抖音版本分别是哪个版本?

python代码示例(不完整,详细代码请订阅专栏:https://blog.csdn.net/m0_52343631/category_12482955.html

import pandas as pd
from datetime import datetime

# 使用示例数据创建DataFrame
data = pd.read_csv('douyin.csv',  encoding='GB18030')
df = pd.DataFrame(data)
# print(df)
# 将评论时间转换为datetime对象,方便后续处理
df['评论时间'] = pd.to_datetime(df['评论时间'])

# 提取小时并统计评论数
df['小时'] = df['评论时间'].dt.hour
time_distribution = df['小时'].value_counts().sort_index()

print("评论时间分布:")
print(time_distribution)

问题三:请分析附件中抖音用户的评语,通过自然语言处理进行文本的情感 分析,建立数学模型,判断用户的每条评语属于“积极”、“消极”还是“中立” 的态度,并计算出附件中所有评语中“积极”、“消极”和“中立”的比例。

python代码示例(不完整,详细代码请订阅专栏:https://blog.csdn.net/m0_52343631/category_12482955.html

import pandas as pd
from textblob import TextBlob

# 使用示例数据创建DataFrame
data = pd.read_csv('douyin.csv',  encoding='GB18030')
df = pd.DataFrame(data)

# 确保评语列为字符串类型
df['评语'] = df['评语'].astype(str)

# 定义情感分析函数
def sentiment_analysis(text):
    analysis = TextBlob(text)
    if analysis.sentiment.polarity > 0:
        return '积极'
    elif analysis.sentiment.polarity < 0:
        return '消极'
    else:
        return '中立'

# 应用情感分析函数到评语列
df['情感倾向'] = df['评语'].apply(sentiment_analysis)

问题四:请绘制附件中所有抖音用户评语的“词云图”,并分别绘制评语属 于“积极”、“消极”和“中立”的“词云图”,然后分析“词云图”中的高频 词汇信息,基于此请给北京字节跳动公司的“抖音”部门提出你们的建议

python代码示例(不完整,详细代码请订阅专栏:https://blog.csdn.net/m0_52343631/category_12482955.html

from wordcloud import WordCloud
import matplotlib.pyplot as plt

def generate_word_cloud(text):
    wordcloud = WordCloud(width = 800, height = 800,
                          background_color ='white',
                          min_font_size = 10).generate(text)

    # Plot the WordCloud image
    plt.figure(figsize = (8, 8), facecolor = None)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.tight_layout(pad = 0)

    plt.show()

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

个人笔记(bug,思路,总结)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值