数据文件的导入和导出(read_csv\read_excle\read_table)
"""
读取csv文件
"""
import pandas as pd
df_1 = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data1.csv',
encoding = 'utf8',engine = 'python')
df_2 = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data2.csv',
encoding = 'utf8',engine = 'python',header = None)
'''
读取excle文件
'''
df_3 = pd.read_excel(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data3.xlsx')
'''
读取txt文件
有时候数据会粘在一起,可以用sep = ‘,’隔开
'''
df_4 = pd.read_table(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/data4.txt',
sep = ',', engine = 'python',header = None)
'''
导出文件
index = True(False) 是否有行标签
header = True(False) 是否有表头
'''
df_1.to_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/导出.csv',
index = True, header = True)
df_2.to_excel(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/1.数据导入与导出/导出.xlsx',
index = True, header = True)
'''
utf-8:包含全世界所有国家需要用到的字符,英文网站用的较多
gbk:包含所有的中文字符
unicode:把所有语言统一到一套编码(占的内存更大)
'''
缺失值和重复值处理
缺失值处理(isnull()、fillna()、dropna())
"""
缺失值和重复值处理
"""
'''
缺失值处理
'''
import pandas as pd
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/2.缺失值处理/data.csv',
encoding = 'gbk', engine = 'python')
'''
isnull()
进行逻辑判断,判断空值所在的位置
'''
na = df.isnull()
'''
找出空值所在的行数据【逻辑判断+取数】
'''
df[na.any(axis = 1)]
'''
找出空值所在的列
'''
na[['gender']].any(axis = 1)
df[na[['age','gender']].any(axis = 1)]
'''
填充缺失值fliina()
'''
df_1 = df.fillna('1')
'''
删除缺失值(默认删除整行数据)
'''
df_2 = df.dropna()
重复值处理(duplicated()、drop_duplicates)
"""
重复值处理
"""
import pandas as pd
df = pd.read_csv(r'/Users/dx/Desktop/Python数据分析与机器学习/3.数据分析处理库-Pandas/数据处理/3.重复值处理/data1.csv',
encoding = 'gbk', engine = 'python')
'''
找出重复值【逻辑判断】完全一致时才会判定为true
'''
result1 = df.duplicated()
'''
根据列名来判断重复值
'''
result2 = df.duplicated('gender')
result3 = df.duplicated(['gender','name'])
'''
提取重复行df[]
'''
df[result1]
df[result2]
'''
删除重复行
'''