Pandas学习笔记

最新推荐文章于 2024-10-07 08:35:34 发布

纨绔→_→

最新推荐文章于 2024-10-07 08:35:34 发布

阅读量912

点赞数 15

文章标签： pandas 学习笔记

本文链接：https://blog.csdn.net/2301_81402797/article/details/140609439

版权

本次学习是通过实际数据用pandas进行分析和处理的操作。使我们逐步了解和掌握数据处理的基本技能。

1.导入numpy和pandas，这俩款工具可以有效地提高工作的效率。代码分别为：

import numpy as np
import pandas as pd

2.掌握不同的方法导入数据

（1）绝对路径 df = pd.read_csv(r'C:\Users\LENOVO\Desktop\train.csv')

（2）相对路径 df = pd.read_csv('train.csv')

通过对比发现，绝对路径提供了完整的文件或目录路径，从根目录开始，可以唯一确定位置。相对路径只提供了与当前位置的相对关系，没有明确从根目录开始。‌

pd.read_csv() 默认使用逗号作为字段之间的分隔符，通常用于读取逗号分隔值（CSV）文件，这类文件以“.csv”为扩展名，数据字段之间用逗号分隔。
pd.read_table() 默认使用制表符（tab）作为字段之间的分隔符，用于读取制表符分隔值（TSV）文件，这类文件以“.tsv”为扩展名，数据字段之间用制表符分隔。
要想使两者表达效果相同，可以将pd.read_table 里的默认的制表符改为逗号。

3.逐块读取，就是将文本分成若干块。因为我们平时使用pandas来处理文件的时候，经常会遇到大文件，但有时候我们只想要读取其中的一部分数据或对文件进行逐块处理。我们可以执行以下代码将这次泰坦尼克号的数据按照1000为块逐块读取。

chunker = pd.read_csv('./train.csv',chunksize=1000)
for i in chunker:
print(i)

4.为了让数据更加方便的被读取，将表头的英文改为中文。

df = pd.read_csv('train.csv',names=['乘客ID','是否幸存','乘客等级','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header = 0)

这里我们需要注意的是，代码里的汉字在表头中是按照从右至左的顺序排列，如果只写一组汉字，那么表头中被代替的是最右边的表头

5.查看数据的基本信息。执行以下代码就可以概览到数据大小、有多少列，各列都是什么格式的，是否包含null等数据的整体结构和样例

df.info()

如果我们只想看到数据的前十行或后十五行我们可以对数据进行以下筛选

df.head(10) #前十行

df.tail(15) #后十五行

6.保存数据

将你加载斌做出改变的数据在工作目录下保存到train_chinese.csv