python数据处理
1.生成数据
1.导入数据表
df = pd.read_excel('C:/Users/Admin/Desktop/types/output.xlsx')
df1 = pd.read_csv('C:/Users/Admin/Desktop/types/output.csv')
2.创建数据表
df = pd.DataFrame(({"id": [1001, 1002, 1003, 1004, 1005, 1006],
"date": pd.date_range('20130102', periods=6),
"city": ['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age": [23, 44, 54, 32, 34, 32],
"category": ['100-A', '100-B', '110-A', '110-C', '210-A', '130-F'],
"price": [1200, np.nan, 2133, 5433, np.nan, 4432]}))
2.数据表检查
1.查看维度(行列)
df.shape
(6, 6)
2.数据表信息
df.info()
3.查看数据格式
# 查看数据表各列格式
print(df.dtypes)
# 查看数据表单列格式
print(df['city'].dtype)
4.查看空值
# 检查数据是否为空值
print(df.isnull())
# 检查特定列是否为空值
print(df['price'].isnull())
5.查看唯一值
# 查看city列中的唯一值
print(df['city'].unique())
['Beijing ' 'SH' ' guangzhou ' 'Shenzhen' 'shanghai' 'BEIJING ']
6.查看数据表数据
print(df.values)
7.查看列名称
print(df.columns)
Index(['id', 'date', 'city', 'age', 'category', 'price'], dtype='object')
8.查看前多少行数据
# 不设置值时,默认为5行
print(df.head(3))
9.查看前多少行数据
# 不设置值时,默认为5行
print(df.tail(3))
3.数据表清洗
1.处理空值(删除或填充)
# 删除数据表中含有空值的行