pandas,numpy处理数据常用函数合集

       

目录

numpy常用函数

pandas常用函数

补充:

        在数据挖掘,处理数据时,经常用到pandas的相关函数,经常不能准确的把函数完全写出来,这一次索性把我知道的常用的函数都整理出来。因为函数有很多,这里就不将函数所有的参数列举出来解释了,望理解!需要的话可以自己复制下去补充。

numpy常用函数

t1 = np.array([1,2,3])   # 使用numpy生成数组,得到ndarray的类型
t2 = np.arange(12)       # 等同于使用range使用的方法也相同 这里range也可以使用
t=np.random.randint(40,100,51)   # 随机生成51个40到100的数字,
t6 = t5.flatten()       # 多维数据转换成一维数组

t6=t5.reshape((3,4))    #改变数组的形状,多维数据时为元组形式

t1 = t.astype(float)    # 改变数组中的数据类型

t1 = t.T        # 将数组转置

t3 = np.vstack((t1,t2))    # 将t1,t2竖直拼接  ,元组形式,

t3 = np.hstack((t1,t2))   # 将t1,t2水平拼接,元组形式

t.isnull()    # 返回的是bool值 ,  空数据为 True   ,有数据则为False

t.isnull().sum()   # 返回t中的空数据的个数

c.dropna(axis=0,how="any",inplace=False)   # 删除缺失值  默认将含有NaN的结果一行删除
# axis = 1 时,删除含有空数据的一列数据
# 将any改为 all 时  时指当一行数据全部为nan的行删除
# 将false改为true就会更改原本的内容

a.fillna(a.mean())   # 将数组a中的空数据 用a中的有值数据的平均值填充  

res = t.value_counts()   # 得到一维数组中的每种数据的个数

pandas常用函数

# pandas读取文件

df=pd.read_excel("文件路径",header=None,nrows = 15,names=['A', 'B','C'])

# 读取excel文件,
# header=None  当excel文件中没有列名的时候使用,否则会将第一行数据设置为列名
# nrows      读取文件的行数
# name    设置列名


df=pd.read_csv("文件路径",sep="\t",header=None,,index_col='year')

# 读取csv和txt文件(格式和csv相同),
# seq="\t"   # 将数据中 ‘,’分隔符换成\t     # 主要使数据排列更美观
# 读取文件同时将year列作为索引


t = pd.Series([random.random()*100 for i in range(3)],index=["苹果","香蕉","葡萄"])
# 生成一维数据,同时指定index的值

data1 = df.set_index('year')   # 将df中的year列设置为索引(此时的数组已经生成)

data=df.reset_index(drop=True)   # 重置索引的同时删除原来的索引


# 数组取值
t.loc["苹果"]       # 通过字段名来得到

data = df.iloc[1:7,[2,4]]    
# 取df数据的中第二到第七行,中的第三列,第五列数据 (逗号前的是行数,逗号后是列数)
# :是使用切片的方法 ,列表中是具体取值


df = df.apply(lambda x: x.sum())   
# apply函数,既能使用在Series 也能使用在 DataFrame,是数组中的每一个数据执行函数


df.info()    # 展示df的数据的类型,个数,数据大小

df.describe()   # 返回数组中的每一列的count,mean等值

df = df.groupby(by=['种类']).mean()   # 将df中的数据按照‘种类’列分组,求每一组的平均值

data = df.sort_values(by=['列名1','列名2'],ascending=False,inplace=True)  
# 没有设置inplace值就需要用变量接收  
# 将数组中的数据先按照列名1排序,当列名1相同时按照列名2排序。

np.where(condition, x, y)   #  满足condition, 输出x, 不满足,输出y
np.where(condition)    # 只有条件 (condition),没有x和y,则输出满足条件 (即非0) 元素的坐标 , 
# 这里的坐标以tuple的形式给出,通常原数组有多少维,输出的tuple中就包 含几个数组,分别对应符合条 
#  件元素的各维坐标。

data = pd.get_dummies(df)   # 将字符数据转换成one-hot数据

       暂时把我所知道的常用函数都列举出来了,大家用得上的话可以拿去补充完整的参数。如果还有没有提到的函数,有空的话也可以发到评论区。

补充:

列中的数据为列表,将列表中的数据转换成one-hot编码

转换get_dummies编码的实例:

retail_shopping_basket={'ID':[1,2,3,4,5,6],
                        'Basket':[['Beer','Diaper',"Pretzels",'Chips','Aspirin'],
                                  ['Diaper','Beer','Chips','Lotion','Juice','BabyFood','Milk'],
                                  ['Soda',"Chips",'Milk'],
                                 ['Soup','Beer','Diaper','Milk','IceCream'],
                                 ['Soda','Coffee','Milk','Bread'],
                                 ["Beer",'Chips']
                                 ]
                       } 

数据展示

df["Baset"].str.join(",")     # 将df的Basket列的字符串数据直接操作

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值