1、修改pandas数据
#示例 : 对df的vine这一列数据进行操作,将value值为N的转化成0,其余的转化成1
df["vine"] = df["vine"].apply(lambda x : 0 if x == "N" else 1)
将某一行的数据俺条件修改,lambda可以自己定义函数进行更加复杂的操作
2、学习使用时间戳
#示例 : 将df的review_date这一列的字符串转化成时间戳
df['review_date'] = pd.to_datetime(df['review_date'], format='%m/%d/%Y')
format = "%m/ %d/ %Y"这里根据你的数据进行操作,m:month,d:day,Y:year,所以我这里的数据类似是 "12/31/2020"这种。
对时间戳进行索引的时候依旧可以使用字符串,例如
df["2018"] #选取2018年的所有数据
df["2018-11"] #选取2018年11月的所有数据
df["2018":"2020"] #选取2018年-2020年的所有数据
3、使用pandas直接可视化
df.plot() #使用dataframe中的数据进行绘制折线图
df.plot(kind = "bar") #绘制柱状图
df.plot(kind = "barh") #索引为y轴绘制柱状图
df.plot(kind = "barh", x = "A", y = ["B", "C"]) #指定x轴与y轴
df.plot(kind = "scatter", x = "A", y = "B") #散点图
如果想对上面的图片进行保存,可以使用如下方法
ax = df.plot(kind = "types", title = "yourtitle", color = "red")
df.plot(kind = "types", title = "yourtitle", color = "blue") # 绘制多个列组
fig = ax.get_figure()
fig.savefig("df.png")
4、索引dataframe
#索引
df.iloc[3, 4] #第三行第四列
df.iloc[0: 8, 8:] #第0-8行中第8列以后的所有数据
df["column_name"][6] #某一列的第6行
df.loc[index, "columns_name"] #index行 columns_name列
5、使用df.head()
df.head() #在读取较大的文件时,可以查看前五行