Python 数据分析实战:ChatGPT 等大语言模型应用效果与用户体验分析

目录

一、案例背景

二、代码实现

2.1 数据收集

2.2 数据探索性分析

2.3 数据清洗

2.4 数据分析

2.4.1 不同模型的平均评分对比

2.4.2 用户评价情感分析

2.4.3 关键词提取

2.4.4 构建评分预测模型

三、主要的代码难点解析

3.1 数据收集

3.2 数据清洗 - 文本清洗

3.3 数据分析 - 关键词提取

3.4 数据分析 - 构建评分预测模型

3.5 数据可视化

四、可能改进的代码

4.1 数据收集改进

4.2 数据清洗改进

4.3 数据分析改进

4.4 关键词提取改进

4.5 模型评估与调优改进


一、案例背景

近年来,以 ChatGPT 为代表的大语言模型在自然语言处理领域掀起了巨大的浪潮,在智能客服、内容创作、教育辅助等众多领域得到了广泛应用。这些模型凭借强大的语言理解和生成能力,为用户带来了全新的交互体验,但同时也面临着诸如回答准确性、内容连贯性、对复杂问题的处理能力等方面的挑战。对大语言模型的应用效果和用户体验进行深入分析,有助于模型开发者进一步优化模型性能,也能为企业和用户在选择和使用大语言模型时提供参考依据。

二、代码实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from textblob import TextBlob
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

2.1 数据收集

从大语言模型的官方论坛、社交媒体平台(如 Twitter、Reddit)以及专门的科技评测网站收集用户对 ChatGPT 等大语言模型的评价数据。这里假设通过 API 和网页爬虫获取了相关数据,并存储在llm_reviews.csv文件中。

data = pd.read_csv('llm_reviews.csv')

2.2 数据探索性分析

# 查看数据基本信息
print(data.info())

# 查看数据集行数和列数
rows, columns = data.shape

# 查看数据集行数和列数
if rows < 10:
    print(data.to_csv(sep='\t', na_rep='nan'))
else:
    print(data.head().to_csv(sep='\t', na_rep='nan'))

# 统计不同大语言模型的评价数量
model_count = data['model_name'].value_counts()
print(model_count)

# 查看评分的分布情况
sns.histplot(data['rating'], kde=True)
plt.title('Distribution of Ratings for Large Language Models')
plt.xlabel('Rating')
plt.ylabel('Count')
plt.show()

2.3 数据清洗

# 处理缺失值
data.dropna(subset=['review_text', 'rating'], inplace=True)

# 去除重复的评价
data = data.drop_duplicates()

# 文本清洗
import re
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = text.lower()
    return text
data['clean_review_text'] = data['review_text'].apply(clean_text)

2.4 数据分析

2.4.1 不同模型的平均评分对比

average_rating_by_model = data.groupby('model_name')['rating'].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(x='model_name', y='rating', data=average_rating_by_model)
plt.title('Average Rating of Different Large Language Models')
plt.xlabel('Model Name')
plt.ylabel('Average Rating')
plt.xticks(rotation=45)
plt.show()
2.4.2 用户评价情感分析

data['sentiment'] = data['clean_review_text'].apply(lambda x: TextBlob(x).sentiment.polarity)

# 绘制情感极性分布直方图
plt.figure(figsize=(10, 6))
sns.histplot(data['sentiment'], kde=True)
plt.title('Sentiment Polarity Distribution of User Reviews')
plt.xlabel('Sentiment Polarity')
plt.ylabel('Count')
plt.show()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

萧十一郎@

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值