【数据分析】goodbooks-10k

最新推荐文章于 2024-09-26 07:11:39 发布

叶柖

最新推荐文章于 2024-09-26 07:11:39 发布

阅读量955

点赞数 3

分类专栏：数据分析文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_38929220/article/details/120062938

版权

本文基于goodbooks-10k数据集，探讨1975年后出版图书的数量与评分之间的关系。通过分析发现，1841年以前的作品数量稀少且评分波动大。通过筛选1975年以后的书籍，可以更准确地观察到评分分布的稳定性和数量趋势。在分析过程中，使用了enumerate()和zip()等Python函数进行数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Ten thousand books, one million ratings. Also books marked to read, and tags.
数据来源：https://www.kaggle.com/zygmunt/goodbooks-10k

统计图书出版年份与数量及评分的关系

在这里插入图片描述
会用到book_id original_publication_year average_rating

import pandas as pd
from matplotlib import pyplot as plt

file_path = './books_data/books.csv'

df = pd.read_csv(file_path, encoding='ansi')

# 去除有NAN的行
data = df[pd.notnull(df['original_publication_year'])]

# 按年份算书的均分
grouped = data['average_rating'].groupby(data['original_publication_year']).mean()
print(grouped)
# 按年份算书的数量
grouped1 = data.groupby(data['original_publication_year']).count()['book_id']
print(grouped1)

year = grouped.index
rating = grouped.values
year1 = grouped1.index
books_num = grouped1.values

plt.rcParams['font.sans-serif'] = ['SimHei']
fig = plt.figure(figsize=(15,