1、基本读写数据集(CSV、Execl)
import pandas as pd
#csv的读和写
df=pd.read_csv(r'C:\Users\Administrator\Desktop\exp1.csv')
df.to_csv("data.csv", sep=",", index=False) # 逗号分隔,没有下标
#excel的读和写
#方式一:创建ExcelFile
xlsx=pd.ExcelFile('examples/ex1.xlsx')
pd.read_excel(xlsx,'Sheet1')
#方式二:
df=pd.read_excel('examples/ex1.xlsx','Sheet1')
#写
writer=pd.ExcelWriter(aaaa.xlsx')
TodayRepayFrame.to_excel(writer,'sheetname')
writer.save()
2、基本数据集特征
df.info()
3、基本数据统计
#针对的数据是数字
df.describe()
4.查看前后n行
df.head(n)#不填数字默认前5行
df.tail(n)
5.查找某列数据。将DataFrame的列获取为一个Series
df.[列名]或者df.列名
6.查找行数据
df.loc[index]
7.删除某列
del df['列名']
8.获得所有列名
df.columns
9.重置index
#reset_index会创建一个新对象,所以记得赋值
df=df.reset_index(drop=True)
10 若文件有些字段是被数量不同的空白字符间隔隔开的,这种情况下,可以传递以恶正则表达式作为read_table 的分隔符。可以用\s+
result = pd.read_table('examples/ex3.txt', sep='\s+')
11 时间类型转换为字符串
data['date']=data['date'].astype('str')
12 转换为时间类型
data['date']=data['date'].astype('str')
13 对数据分组
bins=[0,10,20,30,40,50,100]
cut_data=pd.cut(data['quantity'],bins)
cut_data
14 判断字符串是否为空
s.strip() #返回true or false
15.去全部空格
data['Sex']=data['Sex'].str.strip()
16.值替换
data['Sex'].replace(['.','lli','N'],['M','M','M'],inplace=True)
17.查看该列数据的值个数
data['Sex'].value_counts()