Python---Pandas库与数据处理

最新推荐文章于 2020-07-27 14:12:40 发布

xinyuan.LIU

最新推荐文章于 2020-07-27 14:12:40 发布

阅读量127

点赞数

分类专栏： Python（Pycharm）文章标签： Python pandas

本文链接：https://blog.csdn.net/qq_43265005/article/details/104033498

版权

Python（Pycharm）专栏收录该内容

5 篇文章 0 订阅

订阅专栏

读取数据
```
import pandas as pd
pd.read_csv(" ")
```

观察数据

print(xxx.dtypes) #每列的数据类型
print(xxx.head(n)) #前n行数据
print(xxx.tail(n)) #后n行数据
print(xxx.columns) #每一列的名字
print(xxx.shape) #行列数
print(xxx.loc[0]) #索引为0的（第一个）数据

print(xxx[列1, 列2]) #输出指定列
xxx[新列名] = 变量 #将数组加入数据框

xxx.max()
xxx.mean()

new = xxx.sort_values("列", inplace = True, ascending = True) #按照指定列排序，生成新的数据框，升序
new.reset_index(drop = True) #排序后生成新的索引，并且删去原有索引

pd.to_datetime() #转换格式

缺失值

isnull = pd.isnull(dataframe[array]) #判断列中元素是否为空
dataframe[isnull] #提取na值所在的行
dataframe[isnull = False] #提取非na值
len(isnull) #缺失值数目
xxx.dropna(axis = 1, subset = (列1, 列2)) #删除带有缺失值的列，只对列1，2进行缺失值筛选操作

筛选以特定字符串开头/结尾的变量

colnames = xxx.columns.tolist() #将列名变为list格式
new = [] #预分配

for i in colnames 
  if i endswith('文本') #endswith or startswith
    new.append(i) #将符合条件的列名存入new

数据透视表

xxx.pivot_table(index = '', values = '', aggfunc = np.mean)

#index 按照什么分组（男女、年级等）
#values 对什么进行统计（分数、年龄等等）
#aggfunc 统计方式（均值、极值）

自定义函数

#第一种方式

def 函数名(输入变量)
  。。。
  。。。
  return 变量或'字符串'

xxx.apply(函数名)

#第二种方式

f = lambda x:pow(x, 2) #lambda定义匿名函数，输入变量为x，输出x的平方

read_csv之后得到的是dataframe，dataframe的每一行或列是一个Series。如果想自建Series，需要
```
from pandas import Series
 
xxx = Series(变量, index = )
```

xinyuan.LIU

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python---Pandas库与数据处理

读取数据 import pandas as pdpd.read_csv(" ") 观察数据 print(xxx.dtypes) #每列的数据类型print(xxx.head(n)) #前n行数据print(xxx.tail(n)) #后n行数据print(xxx.columns) #每一列的名字print(xxx.shape) #行列数print(xxx.l...
复制链接

扫一扫