pandas数据处理

最新推荐文章于 2024-08-04 21:44:24 发布

荔枝童鞋

最新推荐文章于 2024-08-04 21:44:24 发布

阅读量1.9w

点赞数 4

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liz_zhong/article/details/49915287

版权

本文介绍了使用Pandas进行数据预处理的各种方法，包括concat、map、isin、mean、median等函数的应用，以及如何处理缺失值、属性数字化和哑变量。通过实例展示了如何连接DataFrame、修改列值、设置缺失值、属性离散化以及标准化等操作。

摘要由CSDN通过智能技术生成

用pandas进行数据分析，对数据预处理，以及简单例子说明

concat

用于将2个DataFrame连接到一起，一般是将训练集与测试集连接在一起对属性值进行预处理。个人感觉这样处理是可以的，因为对属性值的处理一般要求数值越多越好，而且对训练集与测试集的数据预处理要求要是一样的。只要在训练模型的时候讲2者分开就行。

相同列合并到一起，不同时新建列，缺省值为NaN

df1 =DataFrame({'a':[1,2,3],'b':[4,5,6]})

df2 =DataFrame({'a':['a','b','c'],'c':['e','f','g']})

df = pd.concat([df1,df2])

print df

"""

a b c

0 1 4 NaN

1 2 5 NaN

2 3 6 NaN

0 a NaN e

1 b NaN f

2 c NaN g

"""

df.reset_index(inplace=True)

print df

"""

index a b c

0 0 1 4 NaN

1 1 2 5 NaN

2 2 3 6 NaN

3 0 a NaN e

4 1 b NaN f

5 2 c NaN g

"""

df.drop('index', axis=1,inplace=True)

print df

"""

a b c

0 1 4 NaN

1 2 5 NaN

2 3 6 NaN

3 a NaN e

4 b NaN f

5 c NaN g

"""

df =df.reindex_axis(df1.columns, axis=1)

print df

"""

a b

0 1 4

1 2 5

2 3 6

3 a NaN

4 b NaN

5 c NaN

"""

df.shape[0]，df.shape[1]分别获取行数、列数

print df.shape[1],"columns:", df.columns.values

print "Row count:",df.shape[0]

"""

2 columns: ['a' 'b']

Row count: 6

"""

map()

Series 或 DataFrame 的列都可以调用一个map()方法。该方法接受一个函数或字典作为参数，并将之应用于该列的每一个元素，将元素值映射为另一个值。多用于数据离散化。

df = DataFrame(np.arange(8).reshape(4,2),columns= ['a','b'])

df['c'] = df['a'].map(lambda x: x+1)

print df

"""

a b c

0 0 1 1

1 2 3 3

2 4 5 5

3 6 7 7

"""

也可以在原来列修改值。df['a'] =df['a']. map({xxx})

"""

最低0.47元/天解锁文章

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

荔枝童鞋 CSDN认证博客专家 CSDN认证企业博客

码龄9年

18: 原创

31万+: 周排名

35万+: 总排名

6万+: 访问

: 等级

771: 积分

22: 粉丝

22: 获赞

5: 评论

23: 收藏

私信

关注

热门文章

分类专栏

最新评论

随机森林小结
我只是一个搬砖的回复 SpongeBob_yaya: 越低越好吧，袋外误差
决策树原理-python实现
hi-ha-hi: 写得很清楚了
随机森林小结
SpongeBob_yaya: 你好，我想问下.oob_score的值是越大越好吗
随机森林小结
pgplayer_upc: 作者你好我用的随机森林matlab工具包，请问袋外数据预测的函数在哪里看，袋外数据预测结果，即获得P（预测值为1[表情]真实值为1），P（预测值为2[表情]真实值为1），P（预测值为,3[表情]真实值为1）（假设有3个类）。怎么弄啊不知道在哪里修改输出？谢谢啦！
随机森林小结
一个处女座的程序媛: 随机森林是一种组合方法，由许多的决策树组成，因为这些决策树的形成采用了随机的方法，因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时，其实就是让每一颗决策树进行分类，最后取所有决策树中分类结果最多的那类为最终的结果。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。