pandas入门复习(数据处理)

数据文件的导入和导出(read_csv\read_excle\read_table)

"""
读取csv文件
"""
import pandas as pd

df_1 = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data1.csv',
            encoding = 'utf8',engine = 'python')

df_2 = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data2.csv',
            encoding = 'utf8',engine = 'python',header = None)
#header = None 没有表头,有时候第一行数据会变成表头,使用这个参数修正

'''
读取excle文件
'''
df_3 = pd.read_excel(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data3.xlsx')

'''
读取txt文件
有时候数据会粘在一起,可以用sep = ‘,’隔开
'''
df_4 = pd.read_table(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data4.txt',
                     sep = ',', engine = 'python',header = None)

'''
导出文件
index = True(False) 是否有行标签
header = True(False) 是否有表头
'''
df_1.to_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/导出.csv',
            index = True, header = True)

df_2.to_excel(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/导出.xlsx',
            index = True, header = True)

'''
utf-8:包含全世界所有国家需要用到的字符,英文网站用的较多
gbk:包含所有的中文字符
unicode:把所有语言统一到一套编码(占的内存更大)
'''

缺失值和重复值处理

缺失值处理(isnull()、fillna()、dropna())

"""
缺失值和重复值处理
"""
'''
缺失值处理
'''
import pandas as pd

#gbk:包含所有中文字符,默认是utf-8。文件中有中文,如果不修改成gbk会乱码。
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/2.缺失值处理/data.csv',
                 encoding = 'gbk', engine = 'python')

'''
isnull()
进行逻辑判断,判断空值所在的位置
'''
na = df.isnull()

'''
找出空值所在的行数据【逻辑判断+取数】
'''
#na.any(axis = 1)逻辑判断
df[na.any(axis = 1)]#取数

'''
找出空值所在的列
'''
na[['gender']].any(axis = 1)
df[na[['age','gender']].any(axis = 1)]

'''
填充缺失值fliina()
'''
df_1 = df.fillna('1')

'''
删除缺失值(默认删除整行数据)
'''
df_2 = df.dropna()

重复值处理(duplicated()、drop_duplicates)

"""
重复值处理
"""

import pandas as pd

#gbk:包含所有中文字符,默认是utf-8。文件中有中文,如果不修改成gbk会乱码。
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/3.重复值处理/data1.csv',
                 encoding = 'gbk', engine = 'python')

'''
找出重复值【逻辑判断】完全一致时才会判定为true
'''
result1 = df.duplicated()

'''
根据列名来判断重复值
'''
#根据某个
result2 = df.duplicated('gender')

#根据某些
result3 = df.duplicated(['gender','name'])

'''
提取重复行df[]
'''
df[result1]
df[result2]

'''
删除重复行
'''
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值