1. 函数
pd.melt()、pd.merge()、.pivot_table()、pd.to_numeric()、pd.reset_index()、pd.concat()、.astype()、.info()、.get()
.str.contains()、.dropna() 、.to_csv()、.groupby()、.plot()
、.all().all()、glob.glob()、.dropna() 、.value_counts()
、.drop_duplicates()、.fillna()
、df.apply(np.mean, axis=0)、.plot(kind=' ')
Python3 pandas(3)筛选数据isin(), str.contains()
pandas中关于set_index和reset_index的用法
8个数据清洗Python代码,复制可用,最长11行 | 资源
pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
frame:要处理的数据集。
id_vars:不需要被转换的列名。
value_vars:需要转换的列名,如果剩下的列全部都要转换,就不用写了。
var_name和value_name是自定义设置对应的列名。
col_level :如果列是MultiIndex,则使用此级别。
Splitting a column with .str
tb
融化保持'country'和
'year'
固定。'gender'
通过对variable
列的第一个字母进行切片来创建一列tb_melt
。- 创建一个
'age_group'
由切片其余列variable
的列tb_melt
。
# Melt tb: tb_melt
tb_melt = pd.melt(tb, id_vars=['country','year'])
# Create the 'gender' column
tb_melt['gender'] = tb_melt.variable.str[0]
# Create the 'age_group' column
tb_melt['age_group'] = tb_melt.variable.str[1:]
# Print the head of tb_melt
print(tb_melt.head())
Splitting a column with .split() and .get()
ebola
使用'Date'
和'Day'
作为id_vars
,'type_country'
作为var_name
,和'counts'
作为融化value_name
。'str_split'
通过拆分on 的'type_country'
列来创建一个列。请注意,您必须先访问的属性,然后才能使用。ebola_melt
'_'
str
type_country
.split()
'type'
使用.get()
方法检索0
的'str_split'
列索引创建一个列ebola_melt
。'country'
使用.get()
方法检索1
的'str_split'
列索引创建一个列ebola_melt
。
.get()
访问.str
属性后,使用方法ebola_melt.str_split
检索索引0
和1
。
要创建'str_split'
列,请访问的.str
属性,ebola_melt.type_country
然后将.split()
with '_'
作为参数使用方法。
# Melt ebola: ebola_melt
ebola_melt = pd.melt(ebola, id_vars=['Date', 'Day'], var_na