探索性数据分析
探索性数据分析(EDA)是一种分析和调查数据集以了解数据特征的方法。
数据集
查看数据集示例,有许多与 2009 年至 2019 年在销售的畅销书的标题和作者相关的信息。 除了标题和作者之外,数据中还有其他元素,例如用户评分、评论、价格、年份和书籍类型。
Price | Reviews | User Rating | |
---|---|---|---|
Count | 550 | 550 | 550 |
Mean | 13.1 | 11953.28 | 4.61 |
Std | 10.84 | 11731.13 | 0.22 |
Min | 0 | 37 | 3.3 |
25% | 7 | 4058 | 4.5 |
50% | 11 | 8580 | 4.7 |
75% | 16 | 17253.25 | 4.8 |
Max | 105 | 87841 | 4.9 |
Python 分析数据集
数值数据行为
简述:使用Python探索畅销图书的评价和评分,直方图显示。
#distribution type books that goes hits by year (fiction / non fiction )
df_books = df.groupby(['Genre','Year']).agg({'Name':'nunique'}).reset_index()
ax = sns.barplot(x="Year", y="Name", hue='Genre', data=df_books)
sns.set(rc={'figure.figsize':(15,9)})
ax.set(xlabel='Year', ylabel='Total Books')
autolabel(ax.patches, labels= df_books.Name, height_factor=1.02)
ax.legend(loc=1, bbox_to_anchor=(1.0,1.1))
plt.title('Distribution of Total Books by Genre per Year') # Set the title
简述:Python 呈现畅销图书的价格密度图。利用箱线图分析来查看畅销书价格和评级每年的均值和中位数分布。创建每年总评论的可视化。创建基于总评论的密集排名作者。使用词云探索畅销书的标题数据。
源代码和数据集
详情参阅 亚图跨际