Python图书数据可视化分析

本文档详述了一次图书数据的可视化分析过程,包括使用pandas、seaborn和matplotlib进行数据导入、统计分析及可视化。内容涵盖出版社图书数量、各星级图书柱状图、图书价格直方图、高价图书出版社占比饼状图、高价图书星级评定的条形图以及图书简介的词云图。通过这些图表,揭示了数据背后的价格分布、星级评价和出版社特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

20220615 导师发布第一个任务---图书数据可视化分析

课件下载链接:

https://pan.baidu.com/s/1RjRyk8ZTbxI1z5W7MZLTdQ?pwd=m6eq

提取码: m6eq

数据集链接:

http://idatascience.cn/dataset-detail?table_id=100178

http://idatascience.cn/dataset-detail?table_id=407

爱数课实验链接:

http://idatacourse.cn/case-run?id=6564&token=bcaf2e9d80c0ba1cd114b2b2fc9dabce

以下为自己实验过程

一、导包

1、pandas需要安装 才能使用

                cmd打开窗口,输入代码安装pandas:pip install pandas

                如果报错,需要检查pip版本,实验性更新:python -m pip install --upgrade pip
2、seaborn,jieba等等同上述用一种方法

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud,STOPWORDS
# 设置中文字体
plt.rcParams['font.sans-serif']='SimHei'

二、得到数据集

# 得到数据集
data = pd.read_csv('D:/newStudent/data/test1/data1.csv',sep=',',encoding='utf-8')
# 输出到终端查看前五行
print(data.head(5))

1、字段基本统计信息 

使用DataFrame对象的describe()方法可以查看各个列的基本统计信息,统计并生成数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本信息。

describe()方法的主要参数:

  • percentiles:自定义分位数,默认是25%,50%,75%
  • include:指定统计的数据类型,默认只统计数值型,当为all时数值和离散型都统计
  • exclude:意排除哪些字段&
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值