【数据分析】goodbooks-10k

本文基于goodbooks-10k数据集,探讨1975年后出版图书的数量与评分之间的关系。通过分析发现,1841年以前的作品数量稀少且评分波动大。通过筛选1975年以后的书籍,可以更准确地观察到评分分布的稳定性和数量趋势。在分析过程中,使用了enumerate()和zip()等Python函数进行数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Ten thousand books, one million ratings. Also books marked to read, and tags.
数据来源:https://www.kaggle.com/zygmunt/goodbooks-10k

统计图书出版年份与数量及评分的关系

在这里插入图片描述
会用到book_id original_publication_year average_rating

import pandas as pd
from matplotlib import pyplot as plt

file_path = './books_data/books.csv'

df = pd.read_csv(file_path, encoding='ansi')

# 去除有NAN的行
data = df[pd.notnull(df['original_publication_year'])]

# 按年份算书的均分
grouped = data['average_rating'].groupby(data['original_publication_year']).mean()
print(grouped)
# 按年份算书的数量
grouped1 = data.groupby(data['original_publication_year']).count()['book_id']
print(grouped1)

year = grouped.index
rating = grouped.values
year1 = grouped1.index
books_num = grouped1.values

plt.rcParams['font.sans-serif'] = ['SimHei']
fig = plt.figure(figsize=(15, 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叶柖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值