import pandas as pd
import numpy as np
df1 = pd.read_csv(‘zongzi.csv’)
请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值
print(df1.info())
去掉空格
df1.columns = df1.columns.str.strip()
去掉发货地址的缺失值
df1.dropna(axis=0, subset=[‘发货地址’], inplace=True)
去掉发货地址的缺失值
df1.dropna(axis=0, subset=[‘发货地址’], inplace=True)
寻找脏数据
df_hz = df1.loc[df1[‘发货地址’].str.contains(r’杭州’)]
print(df_hz.loc[~df_hz[‘价格’].str.match(r’^\d+.?\d+$’)])
df_hz.loc[4376, ‘价格’] = 45
print(df_hz[‘价格’].astype(‘float’).mean())
商品标题带有“嘉兴”但发货地却不在嘉兴的商品有多少条记录
df2 = df1[df1['发货地址 '].map(lambda x:True if '嘉兴’not in x else False)]
print(df2[df2[‘标题’].map(lambda x:True if ‘嘉兴’ in x else False)].shape[0])