「Python」一步一步的在python中预处理csv文件--DataFrame笔记

  1. 找一个csv文件,也就是可以通过excel打开的那种。我是从mysql中,把一个表导出成了csv,是学生成绩表。
  2. 在spyder中的console命令行下输入
    import pandas as pd g_18 = pd.read_csv('Desktop/studentGradeCsv/grade-18-Apr.csv', index_col = "No")
    表示No为index,并导入改成绩csv文件。
  3. 在console的下输入你刚刚新建变量的名字,我这里取的是g_18。回车后会显示这个csv文件的内容
    在这里插入图片描述
  4. 看到省略号觉得不爽,而且我的csv文件很尴尬的有十多列。我希望能看见中间被隐藏的列。
    于是运行py文件如下,
import numpy as np
import pandas as pd
pd.set_option('display.max_columns',1000)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth',1000)
#Jeg elsker dig

运行该文件后,(该代码是复制到spyderIDE中的左边)在console下显示数据的量会扩大。
在这里插入图片描述
而运行该文件,直接点击绿色的运行。
5. 再次查看名为g_18 这个dataframe的信息。
在这里插入图片描述
可以看到中间的列没有再被折叠
6. 在console中输入g_18.info()指令,可以查看该dataframe的信息。
30条,14个属性
在这里插入图片描述
7. 检查数据中是否有重复记录,duplicated方法可以检查series或dataframe对象的重复记录问题。
在这里插入图片描述
我这里的成绩表没有重复记录。
8. 查看数据的基本统计信息。
在这里插入图片描述
mean均值 中位数50%
9. 检查某门课程(某列)的成绩信息。 使用value_counts方法
在这里插入图片描述
10. 饼图

g_18.ProgrammingC.value_counts().plot(kind='pie', autopct='%.2f')

在这里插入图片描述
11. 皮尔逊相关系数

g_18.corr().ProgrammingC

这里查看的是列programmingC课程 与 其他课程之间的关系。
在这里插入图片描述
LinearAlgebra与programmingC的相关度最高 正线性相关

  1. 图像查看相关性
import seaborn as sns
sns.barplot(x='ProgrammingC', y='LinearAlgebra', data=g_18)

输出
在这里插入图片描述
分析输出:
查看programmingC为99的列,最右,说明C语言99的人 线性代数课程成绩为大概92,
因为只有一个这样的记录,所以99这个列没有灰色的小竖条。
查看programmingC为95的列,bar的高度为:c语言95的这部分人对应线性代数课程的均分。而灰色的小竖条为线性代数成绩的区间。
get
而且可以很明显的看到programmingC的值越高,LinearAlgebra的值越高。与相关系数判断一致。
12. 密度图:

与直方图相关的一种类型图,是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的,通过给plot传入参数kind = ‘kde’ 即可

 g_18.ProgrammingC.plot(kind='kde')

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要将 CSV 文件转换为 UTF-8 编码格式,并读入 Pandas DataFrame ,可以按照以下步骤操作: 1. 使用 Pandas 的 `read_csv` 函数读取 CSV 文件。例如: ``` import pandas as pd df = pd.read_csv('file.csv', encoding='原始编码格式') ``` 在这个示例,我们使用了 Pandas 的 `read_csv` 函数将 CSV 文件读入到一个 Pandas DataFrame ,并指定了 CSV 文件的原始编码格式。 2. 将读入的数据转换为 UTF-8 编码格式。例如: ``` import pandas as pd df = pd.read_csv('file.csv', encoding='原始编码格式') df = df.applymap(lambda x: x.encode('utf-8').decode('utf-8')) ``` 在这个示例,我们使用了 Pandas DataFrame 对象的 `applymap` 方法,将 DataFrame 的每一个元素都转换为 UTF-8 编码格式。 3. 对转换后的数据进行处理或者写入新的 CSV 文件。例如: ``` import pandas as pd df = pd.read_csv('file.csv', encoding='原始编码格式') df = df.applymap(lambda x: x.encode('utf-8').decode('utf-8')) # 对数据进行处理 # ... # 将处理后的数据写入新的 CSV 文件 df.to_csv('new_file.csv', index=False, encoding='utf-8') ``` 在这个示例,我们对转换后的数据进行了一些处理,然后使用 Pandas DataFrame 对象的 `to_csv` 方法将处理后的数据写入到一个新的 CSV 文件。需要注意的是,我们在写入文件时指定的编码格式为 UTF-8,并将 `index` 参数设置为 `False`,以避免写入的数据出现多余的行号。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值