pandas取出某一列_机器学习Pandas数据处理手册

3343e58916c030f8e4a1c59627d44bf7.png

前言:

在学习机器学习的过程中,对数据进行预处理时避免不了需要使用Pandas进行大量操作。而Pandas的方法与对象众多,一条一条不好记。因此在这里从八个方面试图对用到的Pandas方法进行总结,在以后使用时可以直接查表。注:下面df均为DataFrame的缩写。

另外也会陆续更新一些常用的机器学习操作,例如缺省值的处理等。


一:基本核心部件:DataFrame与Series

  1. DataFrame相当于一张表:

f022a35e7b27360e9f75d329b72441ea.png
一个DataFrame
创建DataFrame方法:pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
#注意这是一个字典-列表转换器!

其中,DataFrame的内容不限于整型数字。注意,列标签可以由字典-列表转换器指定,但行标签(Index)默认为0、1、2、3... 修改方法如下:

pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
             'Sue': ['Pretty good.', 'Bland.']},
            index=['Product A', 'Product B'])

2. Series相当于只有一列的DataFrame

pd.Series([1, 2, 3, 4, 5])

其中,Series没有列标签,只有Name;行标签仍为Index

pd.Series([30, 35, 40], index=['2015', '2016', '2017'], name='Numbers')

二:文件读写操作

一般我们使用CSV(Comma-Separated Values)文件。

  • 加载csv文件
df = pd.read_csv("../input/****.csv")
##当数据文件中本来就有行标(Index时,可以如下使用在上面加index_col=0)
  • 将数据保存为csv文件:
reviews.to_csv('文件名.csv')
#不加index: reviews.to_csv('文件名.csv',Index=False)
  • 查看文件:
df.shape  #查看数据维度
df.head() #查看前几行数据
df.set_index("title")  #改变index方式
df.Country / df['Country']  #访问reviews文件中名为'Country'的一列数据:
df['country'
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值