20220615 导师发布第一个任务---图书数据可视化分析
课件下载链接:
https://pan.baidu.com/s/1RjRyk8ZTbxI1z5W7MZLTdQ?pwd=m6eq
提取码: m6eq
数据集链接:
http://idatascience.cn/dataset-detail?table_id=100178
http://idatascience.cn/dataset-detail?table_id=407
爱数课实验链接:
http://idatacourse.cn/case-run?id=6564&token=bcaf2e9d80c0ba1cd114b2b2fc9dabce
以下为自己实验过程
一、导包
1、pandas需要安装 才能使用
cmd打开窗口,输入代码安装pandas:pip install pandas
如果报错,需要检查pip版本,实验性更新:python -m pip install --upgrade pip
2、seaborn,jieba等等同上述用一种方法
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import jieba
from wordcloud import WordCloud,STOPWORDS
# 设置中文字体
plt.rcParams['font.sans-serif']='SimHei'
二、得到数据集
# 得到数据集
data = pd.read_csv('D:/newStudent/data/test1/data1.csv',sep=',',encoding='utf-8')
# 输出到终端查看前五行
print(data.head(5))
1、字段基本统计信息
使用DataFrame对象的describe()
方法可以查看各个列的基本统计信息,统计并生成数据集中各个字段的样本数、均值、标准差、最小值、四分位数等基本信息。
describe()
方法的主要参数:
- percentiles:自定义分位数,默认是25%,50%,75%
- include:指定统计的数据类型,默认只统计数值型,当为all时数值和离散型都统计
- exclude:意排除哪些字段&