pandas数据结构series:
Series类似与表格中的列,类似于一维数组,可以保存任意数据类型。
Series由索引index和列组成
生成series: pandas.Series(data,index=,dtype,name=,copy(T/F))
// 也可使用字典来创建Series对象,省去建立索引的步骤
DataFrame:
DataFrame是一个表格型数据结构,含有一组有序的列,有行索引也有列索引
生成DataFrame: pandas.DataFrame(data,index,columns,dtype,copy(T/F))
index:行标签
columns:列标签
values:内容
索引:
pandas可以使用loc属性返回指定行的数据,若没有设置索引则第一行索引为0.
也可以返回多行数据使用loc[[0,1]] //则返回0,1行数据.
pandas csv文件
读取:
df = pandas.read_csv('路径',encoding='gbk')
# Wps中文文件,若使用默认编码则会出现乱码问题
df = df.to_string()
# to_string()函数用于返回str类型
存储:
to_csv('路径') //此方法可将DataFrame存储为csv文件
数据处理
数据合并堆叠:
1.pandas.concat(objs,axis=(0/1)) //将两表在y/x轴向拼接在一起
#axis参数为0(默认)情况下,contact将两表列对其,即y轴拼接,参数为1时反之。
2.pandas.append(self,other,ignore,index=False)
#纵向合并表,两表列名需一致
3.merge()
#主键合并
数据去重:
pandas.DataFrame.drop_duplicates()