注:小蚊子团队KEN主讲,共分6章。第一章,python与数据分析概况;第二章,python安装和使用;第三章,数据准备; 第四章 数据处理;第五章 数据分析;第六章,数据可视化
4.1、数据导入
1)、通过文件导入
CSV
语法:read_csv(file,encoding)
from pandas import read_csv
df = read_csv(
'D://dataloop//python_work//DataAnalysis//4.1//1.csv'
)
df
EXCEL语法:read_excel(fileName,sheetname,names)
from pandas import read_excel;
df = read_excel(
'D://dataloop//python_work//DataAnalysis//4.1//3.xlsx',
sheetname='data'
)
TXT语法:read_table(file,names=[列名1,列名2,...],sep="",encoding,...)
from pandas import read_table
df = read_table(
'D://dataloop//python_work//DataAnalysis//4.1//2.txt',
names=['age', 'name'],
sep=','
)
df
中文问题encoding='UTF-8',
engine='python'
df = read_table(
filePath,
sep=',',
encoding='UTF-8',
engine='python'
)
2)、通过数据库导入MySQL
Access
SQL Server
等等
4.2数据导出
导出文本文件
csv
to_csv函数语法:to_csv(filePath,sep=",",index=True,header=Ture)
默认sep=",",index=True,header=Ture
from pandas import DataFrame;
df = DataFrame({
'age': [21, 22, 23],
'name': ['KEN', 'John', 'JIMI']
})
df.to_csv(
"D://dataloop//python_work//DataAnalysis//4.2//df.csv"
)
df.to_csv(
"D://dataloop//python_work//DataAnalysis//4.2//df.csv",
index=False
)
4.3重复值处理把数据结构中,行相同的数据只保留一行
函数语法:drop_duplicates()
from pandas import read_csv
df = read_csv('D://dataloop//python_work//DataAnalysis//4.3//data.csv')
df
#找出行重复的位置
dIndex = df.duplicated()
#根据某些列,找出重复的位置
dIndex = df.duplicated('id')
dIndex = df.duplicated(['id', 'key'])
#根据返回值,把重复数据提取出来
df[dIndex]
#直接删除重复值
#默认根据所有的列,进行删除
newDF = df.drop_duplicates()
#当然也可以指定某一列,进行重复值处理
newDF = df.drop_duplicates('id')