pandas入门复习（数据处理）

最新推荐文章于 2024-07-23 10:23:25 发布

DXdaxian

最新推荐文章于 2024-07-23 10:23:25 发布

阅读量259

点赞数

分类专栏：科学数据包 pandas 文章标签：数据分析

本文链接：https://blog.csdn.net/DXdaxian/article/details/105983949

版权

数据文件的导入和导出(read_csv\read_excle\read_table)

"""
读取csv文件
"""
import pandas as pd

df_1 = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data1.csv',
            encoding = 'utf8',engine = 'python')

df_2 = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data2.csv',
            encoding = 'utf8',engine = 'python',header = None)
#header = None 没有表头，有时候第一行数据会变成表头，使用这个参数修正

'''
读取excle文件
'''
df_3 = pd.read_excel(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data3.xlsx')

'''
读取txt文件
有时候数据会粘在一起，可以用sep = ‘,’隔开
'''
df_4 = pd.read_table(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data4.txt',
                     sep = ',', engine = 'python',header = None)

'''
导出文件
index = True(False) 是否有行标签
header = True(False) 是否有表头
'''
df_1.to_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/导出.csv',
            index = True, header = True)

df_2.to_excel(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/导出.xlsx',
            index = True, header = True)

'''
utf-8:包含全世界所有国家需要用到的字符，英文网站用的较多
gbk：包含所有的中文字符
unicode：把所有语言统一到一套编码（占的内存更大）
'''

缺失值和重复值处理

缺失值处理(isnull（）、fillna()、dropna())

"""
缺失值和重复值处理
"""
'''
缺失值处理
'''
import pandas as pd

#gbk:包含所有中文字符，默认是utf-8。文件中有中文，如果不修改成gbk会乱码。
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/2.缺失值处理/data.csv',
                 encoding = 'gbk', engine = 'python')

'''
isnull()
进行逻辑判断，判断空值所在的位置
'''
na = df.isnull()

'''
找出空值所在的行数据【逻辑判断+取数】
'''
#na.any(axis = 1)逻辑判断
df[na.any(axis = 1)]#取数

'''
找出空值所在的列
'''
na[['gender']].any(axis = 1)
df[na[['age','gender']].any(axis = 1)]

'''
填充缺失值fliina()
'''
df_1 = df.fillna('1')

'''
删除缺失值(默认删除整行数据)
'''
df_2 = df.dropna()

重复值处理（duplicated()、drop_duplicates）

"""
重复值处理
"""

import pandas as pd

#gbk:包含所有中文字符，默认是utf-8。文件中有中文，如果不修改成gbk会乱码。
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/3.重复值处理/data1.csv',
                 encoding = 'gbk', engine = 'python')

'''
找出重复值【逻辑判断】完全一致时才会判定为true
'''
result1 = df.duplicated()

'''
根据列名来判断重复值
'''
#根据某个
result2 = df.duplicated('gender')

#根据某些
result3 = df.duplicated(['gender','name'])

'''
提取重复行df[]
'''
df[result1]
df[result2]

'''
删除重复行
'''