我有一个大熊猫数据框,df,包括犯罪统计。这些列是犯罪的类别(即纵火、袭击、空头支票、特大盗窃等)。这些行是犯罪发生的地址。在
每个单元格中的值是每个类别的犯罪在该地址发生的次数。在
我需要编写一个函数,该函数遍历数据帧的每一行,将该值与每个类别的平均犯罪数进行比较,然后只标识犯罪数超过平均值的地址。在
以下是我目前为止的代码:import pandas as pd
import csv
crimeData = open("crimeData.csv")
df = pd.read_csv('crimeData.csv')
df = df.set_index ('Address')
mean = df.mean(axis=0)
#this gives me the mean for each Crime Category
for index, row in df.iterrows():
if row > mean:
print (index)
这不管用。我得到以下错误:
值错误:序列的真值不明确。使用a.empty、a.bool()、a.item()、a.any()或a.all()。在
我哪里出错了?我如何才能做到a)确定每个地址的犯罪类别多于平均值,以及b)将地址与超出平均值的犯罪类别一起打印到列表中?在