什么是DataFrame?
DataFrame:一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。
DataFrame创建
直接创建
df = DataFrame([ ['a','b','c','d'], [1,2,3,4] ]) darr = np.array([ [1,2,3,4], [5,6,7,8] ]); df2 = DataFrame(darr,index=['one','two'],columns=['aa','bb','cc','dd']) #index是行索引,columns是列索引 df2.index df2.columns
通过字典创建DataFrame
dict1 = {
'aprt':['101','102','103'],
'profits':[1000,2000,3000],
'year':[2001,2002,2003],
'month':8
}
df3 = DataFrame(dict1)
df3.index=['one','two','three']
## 字典的键作为DataFrame的列索引,值作为列数据
DataFrame的读取csv文件的函数
df4=pd.read_csv('data1.txt', sep=';',encoding='UIF-8',header=None)
# 这个可以使用csv,txt文件,read_csv具体参数执行查询
pandas:缺省值NaN处理方法
- 对于DataFrame/Series中的NaN一般采取的方式为删除对于的列/行或者填充一个默认值
1.dropna 根据标签的值是否存在缺失数据对轴标签进行过滤(删除),可以通过阀值的调节对缺失值的容忍度
2.fillna 用指定值或者插值的方式填充缺失数据,比如:fill或者bill
3.isnull 返回一个憨厚布尔值的对象,这些布尔值表示哪些值是缺失值NAN
4.notnull isnull的否定式
df = DataFrame([
['Tom',np.NaN,456.67,'M'],
['Merry',np.NaN,456.67,'M'],
['Grry',np.NaN,456.67,'M'],
['John',np.NaN,456.67,'M'],
['Joe',np.NaN,456.67,'M'],
['Tom',np.NaN,456.67,'M']
],columns=['name', 'age','salary','Gender'])