Pandas处理csv表格

最新推荐文章于 2025-10-16 08:27:33 发布

原创最新推荐文章于 2025-10-16 08:27:33 发布 · 2.9w 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#Pandas处理csv表格 #Pandas #处理csv表格

Python学习专栏收录该内容

56 篇文章

订阅专栏

本文详细介绍如何使用Pandas处理CSV文件，包括数据读取、预处理、数据类型转换、索引及选择数据等核心操作，并提供了缺失值处理和数据导出的具体方法。

你要的答案或许都在这里：小鹏的博客目录

可以结合这篇使用：数据处理利器Pandas使用手册

1）读取csv文件

data =pandas.read_csv(‘test.csv’) //返回的是DataFrame变量

first_rows = data.head(n) //返回前n条数据,默认返回5条

cols = data.columns //返回全部列名

dimensison = data.shape //返回数据的格式，数组，（行数，列数）

data.values //返回底层的numpy数据

如下去所示的csv数据：leaf_data

解析1:

import pandas as pd
train_data = pd.read_csv("train.csv")

# 将标签转为0，1，2，3，4，...
# 去掉重复的
species = train_data['species'].unique()
print species
# 转为0，1，2，3，4，...
species = pd.Series(range(0, len(species)), index=list(species))
print species

# 修改标签数据为：0，1，2，3，4，...
def fix_spieces(line):
    line['species'] = species.loc[line['species']]
    return line
train_data = train_data.apply(fix_spieces, axis=1)
print train_data[0:4]

# 返回numpy数据。
# 下标从0开始。
# 取样本数据，所有行：第二列到最后一列。
train_data.values[0::, 2::]
# 取标签数据，所有行：第一列。
train_data.values[0::, 1]

解析2:

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

train_data = pd.read_csv("train.csv")

# 将train_data中的‘id’列弹出。
ID = train_data.pop('id')
# print train_data[0:1]

# 将train_data中的‘species’列弹出。
y = train_data.pop('species')
# 将species向量化。
y = LabelEncoder().fit(y).transform(y)
print y

# standardize the data by setting the mean to 0 and std to 1
standardize = True
X = StandardScaler().fit(train_data).transform(train_data) if standardize else train_data.values
print X[0:1]

2）pandas的主要数据类型dtype：
object, 字符串类型
int, 整型
float, 浮点型
datetime, 时间类型
bool, 布尔型
print data.dtpyes输出每一列的数据类型

3）索引

4）选择数据
data.loc[1] //返回单列数据
data.loc[1:3] //返回切片列数据，相当于 data.loc[[1,2,3]]
data.loc[:,['ID’]]
data.loc[:4,['ID','YELP’]] //返回指定行的指定类，从0行到4行，包括第4行

data.iloc[:,:] //返回所有数据
data.iloc[:2,1:3] //返回特定行特定列的数据

data[‘ID’] //返回列
data[2:5] //返回行
data[3:6][:2]
data[‘ID’][3:6]
data[3:6][‘ID’]

data[data.YELP>0] //YELP这列的值不为空，即NaN
data[data['ID'].isin(['v4','v5'])] //返回有这个值的列

5）缺失值处理
去掉包含缺失值的行：df.dropna(how=‘any’)
对缺失值进行填充：df.fillna(values=‘NULL’)
对数据进行布尔补充：pandas.isnull(df)

6）数据处理

<class 'pandas.core.series.Series'>
方法
to_string
to_json
json.loads(df.loc[0:5,['ID','YELP']].to_json())

输出.csv文件。

对应解析1:

output = model.predict_proba(test_data.values[0::, 1::])        
out = pd.DataFrame(output, index=test_data.values[0::, 0].astype(np.int), columns = species.index.values)
out.index.name = "id"

out.to_csv("output.csv")

对应解析2:

LABELS = sorted(pd.read_csv('train.csv').species.unique())

ID, test_data = load_test_data()

yPred_proba = model.predict(test_data)

# Converting the test predictions in a dataframe as depicted by sample submission
yPred = pd.DataFrame(yPred_proba,index=ID,columns=LABELS)

print('Creating and writing submission...')
fp = open('submit.csv', 'w')
fp.write(yPred.to_csv())
print('Finished writing submission')
# Display the submission
yPred.tail()