[DHU数据科学]chapter3

Juneeeeeeeeeeeee

已于 2024-09-14 12:00:16 修改

阅读量120

点赞数 1

分类专栏： 2024数据科学文章标签： python

于 2024-09-09 23:04:12 首次发布

本文链接：https://blog.csdn.net/2301_79923893/article/details/142071667

版权

2024数据科学专栏收录该内容

9 篇文章 1 订阅

订阅专栏

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import xlrd
#3.综合练习1
#(1)
df = pd.read_excel(r"D:\prog\DataScience.xls")
#(2)
print("基本内容及总数:")
print(df.loc[:,:])
#(3)
print("查询是否有NaN:")
nan_rows = df[df.isna().any(axis=1)]
nan_rows.to_csv(r"D:\pro\pre.csv", index=False)
print(f"含有 NaN 的行已成功导出为 pre.csv:\n{nan_rows}")
df.fillna({'星期':4.0,'节次':'5~7','课程':'数据科学导论','类型':'设计型','二级实验室':'人工智能实验室','地点':'11-305'},inplace=True)
df.drop_duplicates()
print(f"填充好的数据集如下:\n{df}")
#(4)
print("\n查询内容:")
print(df.loc[:,['课程','实验项目','类型','二级实验室']])
#(5)
print("\n每门课程的实验数:")
print(pd.crosstab(df['课程'],df['课时数']))
#(6)
print("\n每周开设的课程实验课时数:")
print(pd.crosstab(df['周次'],df['课时数']))
#(7)
print("\n每门课程实验类型分布:")
print(pd.crosstab(df['课程'],df['类型']))
#(8)
#
print("\n每个班级的实验课表:")
#
# grouped = df.groupby(['班级','周次'])
# print(grouped['课程'])
#(9)
print("\n各个二级实验室能够承担的实验课时数:")
print(pd.crosstab(df['二级实验室'],df['课时数']))
#(10)
print("\n各个二级实验室能够支持的实验类型:")
print(pd.crosstab(df['二级实验室'],df['类型']))