2021年中国富翁分析2
作者:冯德平(山野雪人)
#查找缺失的值
#删除NetWorth字段中的美元符号$和单位(十亿美元符号)B
#将NetWorth字段的值转换成浮点数,乘以10将单位改成"亿美元"
import pandas as pd
dataCN = pd.read_csv("D:\\temp\\dataCN.csv") #读文件
print(dataCN.head())
'''
Name NetWorth Country ... Rank Age Industry
0 Zhong Shanshan $68.9 B China ... 13 66.0 Food & Beverage
1 Ma Huateng $65.8 B China ... 15 49.0 Technology
2 Colin Zheng Huang $55.3 B China ... 21 41.0 Technology
3 Jack Ma $48.4 B China ... 26 56.0 Technology
4 Wang Wei $39 B China ... 35 50.0 Service
'''
print(dataCN.isnull().sum()) #检查缺失的数据
#只有age这个字段缺失16个数据
'''
Name 0
NetWorth 0
Country 0
Source 0
Rank 0
Age 16
Industry 0
'''
dataCN["NetWorth"] = dataCN["NetWorth"].str.strip("$") #删除"$"字符
dataCN["NetWorth"] = dataCN["NetWorth"].str.strip("B") #删除"B"字符,B是10亿美元的意思
#将NetWorth的值转成浮点数,X10则单位化为亿美元:
dataCN["NetWorth"] = dataCN["NetWorth"].astype(float)*10
print(dataCN.head())
'''
Name NetWorth Country ... Rank Age Industry
0 Zhong Shanshan 68.9 China ... 13 66.0 Food & Beverage
1 Ma Huateng 65.8 China ... 15 49.0 Technology
2 Colin Zheng Huang 55.3 China ... 21 41.0 Technology
3 Jack Ma 48.4 China ... 26 56.0 Technology
4 Wang Wei 39.0 China ... 35 50.0 Service
'''
#为了便于重复看到文件dataCN.csv的原始状况,这里另存为文件名dataCN1.csv :
dataCN.to_csv("D:\\temp\\dataCN1.csv",index=False) #index=False 表示舍弃索引号
print('文件已保存.')