数据分析小课-python数据清洗实战入门-第四章-数据清洗之数据表操作-数据常用筛选方法- 数据增加和删除-层次化索引数据整理-数据修改和查找-

妮酱也爱敲代码

于 2020-12-15 20:43:54 发布

阅读量241

点赞数

文章标签：数据分析 pandas

本文链接：https://blog.csdn.net/lildn/article/details/111228164

版权

本篇博客介绍了数据分析中的数据清洗操作，包括利用pandas进行数据筛选，如基础索引和iloc选择行与列；数据增加和删除，如插入新列和使用drop方法；数据修改和查找，如rename和loc方法；以及数据整理，如横纵向堆叠和层次化索引的应用。通过实例解析了数据清洗的关键步骤。

摘要由CSDN通过智能技术生成

数据常用筛选方法
• 在数据中,选择需要的行或者列
• 基础索引方式,就是直接引用
• ioc[行索引名称或者条件,列索引名称或者标签]
• iloc[行索引位置,列索引位置]

import pandas as pd
import os
import numpy as np
os.chdir(r'C:\Users\56281\Desktop\数据分析\Python数据清洗实战入门\数据清洗课程材料\代码和数据')#修改代码存放读取路径
df=pd.read_csv('baby_trade_history.csv',encoding='utf-8',dtype={
   'user_id':str})#读取表格，更改编码方式，将user_id列数据类型改为str
df.info()#查看数据类型，数据条数，占用内存
df.columns #查看数据列名
df['user_id']#取出user_id该列数据
df[['user_id','cat1']]#取出多个列的数据
df[['user_id','cat1']][1:5]#取出第二行到第五行两列的数据
df.loc[3:4]#取出行标签为3和4的行数据
df.loc[:,['user_id','buy_mount']].head(5)#取出两列的前5行
df.loc[1:3,['user_id','buy_mount']]#行标签1-3
df.loc[df.user_id=='917056007',['user_id']]#根据条件取出指定数据
df.loc[(df.user_id=='917056007')|(df.buy_mount>3)<