🐼
3.1初识pandas(显示excel前五条数据)
3.2创建Series对象
3.2.1手动设置索引
3.2.4Series的索引
3.3创建一个DataFrame对象
3.4导入外部数据
p59
1.使用read_csv
2.导入html时,需要网页一定具有table标签
3.5数据抽取
3.6数据的增加、修改和删除
p72
3.7数据清洗
4.1数据计算
求和sum()函数,求均值mean()函数求中位数median()函数,具体使用方法书本p93。
求分位数:
4.1数据格式化
我们在处理完数据之后,总会发现数据格式不一致,至此,我们就需要学习如何将数据格式化。
1.设置小数位:
df.round()
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.random([5, 5]),
columns=['A1', 'A2', 'A3','A4','A5'])
print(df.round(2))
#保留小数点后两位
print(df.round({'A1': 1, 'A2': 2}))
#A1列保留小数点后一位、A2列保留小数点后两位
s1 = pd.Series([1, 0, 2], index=['A1', 'A2', 'A3'])
print(df.round(s1))
#设置Series对象小数位数
2.设置百分比:
df.apply(lambda x: format(x,'.0%')) #百分号后保留0位小数
df.map()
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.random([5, 5]),
columns=['A1', 'A2', 'A3','A4','A5'])
df['百分比']=df['A1'].apply(lambda x: format(x,'.0%')) #整列保留0位小数
print(df)
df['百分比']=df['A1'].apply(lambda x: format(x,'.2%')) #整列保留两位小数
print(df)
df['百分比']=df['A1'].map(lambda x:'{:.0%}'.format(x)) #整列保留0位小数,也可以使用map函数
print(df)
3.设置千位分隔符:
df.apply(lambda x: format(int(x),',')) 设置千位分隔符
⚠️设置千位分隔符后数据不再是数字,而是由字符串。所以设置需谨慎。
import pandas as pd
data = [['零基础学Python','1月',49768889],['零基础学Python','2月',11777775],['零基础学Python','3月',13799990]]
columns = ['图书','月份','码洋']
df = pd.DataFrame(data=data, columns=columns)
df['码洋']=df['码洋'].apply(lambda x:format(int(x),','))
print(df)