python pandas处理数据的优点_python 数据分析、数据处理之超实用的pandas

我在博客上分享的都是在实际项目中遇到的棘手的并且解决的问题,整理出来当作知识总结,希望也能帮助到需要的人。

一、dataframe 的merge方法实现千万条数据的关联

这里的temp1是特征数据,有几千万条,temp2是样本标签,有几万条,现在需要拿出有标签的几万条样本的数据,做后续分析。 之前自己写循环做关联操作,每次循环到150万次左右程序就killed了,内存不足,算不出来。 尝试了好多方法,发现dataframe的merge方法简直不能更好用,只需一行代码就能实现,计算速度也是极快的。merge里面传四个参数,分别是两张表的名称、关联字段的名称、和连接方式(left或right)。

temp1 = pd.read_csv('/Users/taorui02/Documents/test_data.txt')

temp2 = pd.read_csv('/Users/taorui02/Documents/test_sample.txt')

merge_data1 = pd.merge(temp2, temp1, on='id', how='left')

merge_data1.to_csv("test.csv", index=False, sep=',')

二、dataframe新增一行数据

dataframe用来做数据处理是十分方便的,可是要增加一行数据的方法我折腾了会儿才解决,因为它不同于修改、赋值。 我们的思维惯性是给新增一行给一个列赋值,其他列默认就是空,可是dataframe不是这样,给一个值是放不到表中的,它也不会报错。正确的放法是把一行数据放到list里面再赋值。

如果是修改赋值,这样就可以:

1.先新建一个dataframe表

import pandas as pd

import numpy as np

df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),

index=['a', 'b', 'c', 'd'],

columns=['one', 'two', 'three', 'four'])

print(df2)

输出:

one two three four

a 0 1 2 3

b 4 5 6 7

c 8 9 10 11

d 12 13 14 15

2.修改一列

import pandas as pd

import numpy as np

df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),

index=['a', 'b', 'c', 'd'],

columns=['one', 'two', 'three', 'four'])

df2['one'] = 99999

print(df2)

输出:

one two three four

a 99999 1 2 3

b 99999 5 6 7

c 99999 9 10 11

d 99999 13 14 15

3. 修改特定值

import pandas as pd

import numpy as np

df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),

index=['a', 'b', 'c', 'd'],

columns=['one', 'two', 'three', 'four'])

df2['one'][0] = 99999

print(df2)

输出:

one two three four

a 99999 1 2 3

b 4 5 6 7

c 8 9 10 11

d 12 13 14 15

4. 使用索引赋值的方式不能实现新增一行,新增的话要用.loc[i]=一个list这种方式。

# coding:utf-8

from pandas import *

df = DataFrame(columns=('lib', 'qty1', 'qty2')) # 生成空的pandas表

df.loc[0] = [1, 3, 4]

print df

输出:

lib qty1 qty2

0 1 3 4

三、dataframe里面的空值判断

在数据处理的过程中,空值是再常见不过的了。 之前没有用pandas的时候判断空值用 if value == '':来判断,可是到了dataframe里面这种代码就失效了,用if value :判断还是报错,最后发现pandas里面有自带的判断空值的方法。 当在文本文件中,空值为null,读入dataframe中,空值就变成了NaN,使用pd.isnull()或者pd.notnull()对一列进行空值判断,即if pd.notnull(value):来判断。

四、数据读取和保存

1. 数据读取

普通读取,sep指定文件的分隔符

using_data = pd.read_csv("/Users/taorui02/Documents/id", sep=' ')

很多时候我们拿到的数据是没有表头的,这时候读入数据要么不显示表头,加header=None就行,要么根据需要自己定义表头。 自定义表头读取,这里给数据加了两个列名,id、label。

using_data = pd.read_csv("/Users/taorui02/Documents/id", sep=' ', header=None, names=['id', 'label'])

2. 数据写入CSV

数据处理完写入文件也是有点讲究的,有时候需要表头,有时候不需要,不需要的时候同样加header=None、index=False就可以。 header=None:不显示列名 index=False:不显示索引号

using_data.to_csv("/Users/taorui02/Documents/IDd.csv", index=False, header=None)

五、逐行打印数据

在hadoop集群上处理数据的时候输出的结果后续需要拆分合并的操作,这时候不能直接保存数据到文件,而是输出,print或者sys.stdout.write(),这时候输出的内容是不能带列名和索引号的,需要逐行打印数据内容。 这里的要点是using_data.loc[index]访问到的不是我们真正想要的,要加上.values才能拿到数据。

import pandas as pd

# 读入数据

using_data = pd.read_csv("/Users/taorui02/Documents/id", sep=' ', header=None, names=['id', 'label'])

# 逐行打印

for index in using_data.index:

print(using_data.loc[index].values)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值