数据预处理-数据清洗之pandas库的简单使用

本文介绍了如何利用Python的pandas库进行数据预处理,包括创建Series和DataFrame,理解DataFrame的索引,以及执行相关操作进行数据清洗。
摘要由CSDN通过智能技术生成

创建一个series

#导入包
import numpy as np

import pandas as pd

'''
创建series
'''
#通过数组创建一个series
np.random.seed(1234)
arr1=np.random.randint(1,10,5)
print(arr1)
ser1=pd.Series(arr1,index=['a','b','c','d','e'])
print(ser1)#index 指定索引,不指定则默认0 1 2 3 ...

#通过字典创建一个series
dict1={
   "a":1,"b":2,"c":3}
print(dict1)
ser2=pd.Series(dict1)
print(ser2)


#通过标量生成一个series
ser3=pd.Series(3,index=['a','b','c'])
print(ser3)
#一种类似广播的形式


'''
series常用属性
'''

#index
print(ser1.index)
#name
ser4=pd.Series(arr1,index=['a','b','c','d','e'],name='data')
print(ser4)
ser4.rename('haha',inplace=True)
#默认不在原数据更改,把inplace改成True就可以在原数据更改
print(ser4)

'''
series的特性
'''
#数组特性
#可以索引和切片,numpy有的操作pandas都可以
print(ser1)
print(ser1[0])
print(ser1[1:4])#切片不会得到最后一个元素
print(ser1[[1,3,4]])
print(ser1>6)
print(ser1[ser1>6])
#可以用一些numpy的函数
print(np.exp(ser1))

#字典特性
#可以通过索引标签获取和设置值
print(ser1['c'])
print(ser1['c':'e'])#标签可以获得最后一个元素
print(ser1[['a','c','d']])
ser1['a']=0#修改series的元素值
print(ser1)
print(ser1.get('b','找不着'))#默认找不到会返回None,可以手动设置

#矢量化和标签对齐
ser5=pd.Series([1,2,3,4,5],['a','b','c','d','e'])
print(ser1+ser5)
#基于标签对齐进行矢量化运算
ser6=pd.Series([1,2,3,4,5],['a','b','k','d','n'])
print(ser1+ser6)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值