python数据清洗笔记

1. 函数

pd.melt()、pd.merge()、.pivot_table()、pd.to_numeric()、pd.reset_index()、pd.concat()、.astype()、.info()、.get().str.contains()、.dropna() 、.to_csv()、.groupby()、.plot() 、.all().all()、glob.glob()、.dropna() 、.value_counts() 、.drop_duplicates()、.fillna()、df.apply(np.mean, axis=0)、.plot(kind=' ')

Python3 pandas(3)筛选数据isin(), str.contains()

.groupby()方法

pandas中关于set_index和reset_index的用法

8个数据清洗Python代码,复制可用,最长11行 | 资源

7步搞定数据清洗-Python数据清洗指南

Python数据清洗80%的工作量,看这篇就够了

pandas.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None)
frame:要处理的数据集。

id_vars:不需要被转换的列名。

value_vars:需要转换的列名,如果剩下的列全部都要转换,就不用写了。

var_name和value_name是自定义设置对应的列名。

col_level :如果列是MultiIndex,则使用此级别。

Splitting a column with .str

  • tb融化保持'country''year'固定。
  • 'gender'通过对variable列的第一个字母进行切片来创建一列tb_melt
  • 创建一个'age_group'由切片其余列variable的列tb_melt
# Melt tb: tb_melt
tb_melt = pd.melt(tb, id_vars=['country','year'])

# Create the 'gender' column
tb_melt['gender'] = tb_melt.variable.str[0]

# Create the 'age_group' column
tb_melt['age_group'] = tb_melt.variable.str[1:]

# Print the head of tb_melt
print(tb_melt.head())

Splitting a column with .split() and .get() 

  • ebola使用'Date''Day'作为id_vars'type_country'作为var_name,和'counts'作为融化value_name
  • 'str_split'通过拆分on 的'type_country'列来创建一个列。请注意,您必须先访问的属性,然后才能使用。ebola_melt'_'strtype_country.split()
  • 'type'使用.get()方法检索0'str_split'列索引创建一个列ebola_melt
  • 'country'使用.get()方法检索1'str_split'列索引创建一个列ebola_melt

.get()访问.str属性后,使用方法ebola_melt.str_split检索索引01

要创建'str_split'列,请访问的.str属性,ebola_melt.type_country然后将.split()with '_'作为参数使用方法。 

# Melt ebola: ebola_melt
ebola_melt = pd.melt(ebola, id_vars=['Date', 'Day'], var_na
  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值