【Python + ArcGIS】数据分析实战
——学生房前屋后的物种多样性调查
0 前言
源数据经清洗后仅110行数据,数据量较小。但由于问卷设计和填写的不专业,数据类型和内容没有保障,导致数据结构复杂,对于新手和经常需要代做数据分析的人们来说可以作为很好的案例。
目录
1 数据格式与分析需求
1.1 数据格式
以下是本人收到的数据Excel文件的表头与样例数据,具体数据来源应该为面向学生发放的调查问卷。数据包括了:
-
问卷的一些基本信息
-
当前时间、当前位置
一个看上去像List但是比较难自动化处理的复杂的数据 -
1-10号植物信息
照片:网址(字符串),名称:字符串,分类:字符串 -
学生感想与自我评分。
学生感想:字符串,自我评分:数字
1.2 分析需求
-
以物种为单位,选择5种频数最高的植物物种制作植物的分布地图,从而分析某个植物的地域分异规律,从生长地的生物和地理的角度解释物种分布的合理性。
-
汇总各个行政区的物种,从物种数量上进行物种多样性比较,概括植物的种类特征以及差异的原因。
2 工具准备
-
Microsoft Office Excel
-
Python
涉及的库:pandas -
ArcGIS
3 数据处理流程
4 数据处理
4.1 初步处理
根据需求与数据进行初步处理:
- 删除了与需求无关的列
- 对于“当前时间,当前位置”,通过整体复制保存为txt文件,运用替换删除“[”、“]”、“ " ”,再保存为.csv文件,复制回原数据中。再利用Excel中的mid()函数对地址串进行截取,获得行政区数据列。
以下是经初步处理后的数据格式与样例数据:
4.2 Python处理
4.2.1 对于 需求1 的 Python 处理
import pandas
from pandas import DataFrame
#定义查询表头列表
titles=[]
for i in range(1,11,1):
titles.append('主要植物'+str(i)+'号名称')
#print(titles)
#打开Excel文件
df=pandas.read_excel('房前屋后的物种多样性调查(6).xls','总表',index_col=0,header=0)
#print(df)
#将主要植物1-10号名称各列合并为一个List
name_list=[]
for i in titles:
for j in df[i].values.tolist():
name_list.append(j)
#print(name_list)
#利用字典进行物种名称统计
name_dist={}
for i in name_list:
if i not in name_dist:
name_dist[i]=1
else:
name_dist[i]+=1
#利用zip和sorted函数进行排序
tuple_list=zip(name_dist.keys(),name_dist.values())
sort = sorted(tuple_list,key=lambda x: x[1],reverse=True)
#输出植物数量最多的前五种植物的List
mask_list=[]
counter=0 #设置计数器
for i in sort:
mask_list.append(i[0])
counter+=1
if counter==5:
break
print(mask_list)
#输出植物数量最多的前五种植物的详细信息
for i in mask_list:
mask=df[titles].values==i
#print(mask)
df_result=DataFrame(df[mask])
#print(df_result)
#将每个植物的详细信息保存为csv文件
filename=i+'.csv'
df_result.to_csv(filename)
4.2.2 对于 需求1 的地理处理
利用上述代码输出的CSV文件,在ArcMap的目录窗口中,右击CSV文件,选择“创建要素类”—“从XY表”即可。
4.2.3 对于 需求2 的 Python 处理
import pandas
from pandas import DataFrame
#定义查询表头列表
titles=[]
for i in range(1,11,1):
titles.append('主要植物'+str(i)+'号名称')
#print(titles)
#打开Excel文件
df=pandas.read_excel('房前屋后的物种多样性调查(6).xls','总表',index_col=0,header=0)
#print(df)
#利用字典形成行政区查询列表
dis=df['行政区'].values.tolist()
temp_dic={}
for i in dis:
if i not in temp_dic:
temp_dic[i] = 1
else:
temp_dic[i] += 1
#print(temp_dic.keys())
dis=list(temp_dic.keys())
#定义各区物种多样性数值字典
dis_count={}
#设计函数统计各区物种多样性
def xls_find(district):
#输出行政区名称
print(district)
#利用字典查询某行政区的物种
mask=df['行政区'].values==district
df_district=df[mask]
#利用字典进行物种名称统计
name_list = []
for i in titles:
for j in df_district[i].values.tolist():
name_list.append(j)
# print(name_list)
name_dist = {}
for i in name_list:
if i not in name_dist:
name_dist[i] = 1
else:
name_dist[i] += 1
#输出行政区物种多样性数值
dis_count[district]=len(name_dist)
#对行政区各个物种的数量进行排序
df_temp=DataFrame.from_dict(data=name_dist,orient ='index',columns=['数量'])
df_temp.sort_values(by=['数量'], ascending=False, inplace=True)
print(df_temp)
#输出csv文件
filename=district+'.csv'
df_temp.to_csv(filename, encoding='utf_8_sig')
#对于各个行政区循环执行自定函数
for i in dis:
xls_find(i)
#排序并输出csv文件
dis_count=DataFrame.from_dict(data=dis_count,orient ='index',columns=['数量'])
dis_count.sort_values(by=['数量'], ascending=False, inplace=True)
print(dis_count)
dis_count.to_csv('各区物种多样性值.csv', encoding='utf_8_sig')
4 分析结果·需求达成
最终成果包括一些6个分布最多的植物的详细数据CSV文件、Shapefile文件与分布图,各区物种多样性详细数据CSV文件。