【Python + ArcGIS】数据分析实战——学生房前屋后的物种多样性调查

【Python + ArcGIS】数据分析实战

——学生房前屋后的物种多样性调查

0 前言

源数据经清洗后仅110行数据,数据量较小。但由于问卷设计和填写的不专业,数据类型和内容没有保障,导致数据结构复杂,对于新手和经常需要代做数据分析的人们来说可以作为很好的案例。

1 数据格式与分析需求

1.1 数据格式

以下是本人收到的数据Excel文件的表头与样例数据,具体数据来源应该为面向学生发放的调查问卷。数据包括了:

  1. 问卷的一些基本信息

  2. 当前时间、当前位置
    一个看上去像List但是比较难自动化处理的复杂的数据

  3. 1-10号植物信息
    照片:网址(字符串),名称:字符串,分类:字符串

  4. 学生感想与自我评分。
    学生感想:字符串,自我评分:数字

数据表头及样例

1.2 分析需求

  1. 以物种为单位,选择5种频数最高的植物物种制作植物的分布地图,从而分析某个植物的地域分异规律,从生长地的生物和地理的角度解释物种分布的合理性。

  2. 汇总各个行政区的物种,从物种数量上进行物种多样性比较,概括植物的种类特征以及差异的原因。

2 工具准备

  1. Microsoft Office Excel

  2. Python
    涉及的库:pandas

  3. ArcGIS

3 数据处理流程

Python--ArcGIS
Python
获得数据
分析数据格式
获得需求
工具准备
Microsoft Office Excel
pandas
Python
ArcGIS
初步处理
对于需求1的处理
对于需求2的处理
需求达成

4 数据处理

4.1 初步处理

根据需求与数据进行初步处理:

  1. 删除了与需求无关的列
  2. 对于“当前时间,当前位置”,通过整体复制保存为txt文件,运用替换删除“[”、“]”、“ " ”,再保存为.csv文件,复制回原数据中。再利用Excel中的mid()函数对地址串进行截取,获得行政区数据列。

以下是经初步处理后的数据格式与样例数据:

在这里插入图片描述

4.2 Python处理

4.2.1 对于 需求1 的 Python 处理

import pandas
from pandas import DataFrame

#定义查询表头列表
titles=[]
for i in range(1,11,1):
    titles.append('主要植物'+str(i)+'号名称')
#print(titles)

#打开Excel文件
df=pandas.read_excel('房前屋后的物种多样性调查(6).xls','总表',index_col=0,header=0)
#print(df)

#将主要植物1-10号名称各列合并为一个List
name_list=[]
for i in titles:
    for j in df[i].values.tolist():
        name_list.append(j)
#print(name_list)

#利用字典进行物种名称统计
name_dist={}
for i in name_list:
    if i not in name_dist:
        name_dist[i]=1
    else:
        name_dist[i]+=1

#利用zip和sorted函数进行排序
tuple_list=zip(name_dist.keys(),name_dist.values())
sort = sorted(tuple_list,key=lambda x: x[1],reverse=True)

#输出植物数量最多的前五种植物的List
mask_list=[]
counter=0 #设置计数器
for i in sort:
    mask_list.append(i[0])
    counter+=1
    if counter==5:
        break
print(mask_list)

#输出植物数量最多的前五种植物的详细信息
for i in mask_list:
    mask=df[titles].values==i
    #print(mask)
    df_result=DataFrame(df[mask])
    #print(df_result)
    
    #将每个植物的详细信息保存为csv文件
    filename=i+'.csv'
    df_result.to_csv(filename)

4.2.2 对于 需求1 的地理处理

利用上述代码输出的CSV文件,在ArcMap的目录窗口中,右击CSV文件,选择“创建要素类”—“从XY表”即可。

在这里插入图片描述
在这里插入图片描述

4.2.3 对于 需求2 的 Python 处理

import pandas
from pandas import DataFrame

#定义查询表头列表
titles=[]
for i in range(1,11,1):
    titles.append('主要植物'+str(i)+'号名称')
#print(titles)

#打开Excel文件
df=pandas.read_excel('房前屋后的物种多样性调查(6).xls','总表',index_col=0,header=0)
#print(df)

#利用字典形成行政区查询列表
dis=df['行政区'].values.tolist()
temp_dic={}
for i in dis:
    if i not in temp_dic:
        temp_dic[i] = 1
    else:
        temp_dic[i] += 1

#print(temp_dic.keys())
dis=list(temp_dic.keys())

#定义各区物种多样性数值字典
dis_count={}

#设计函数统计各区物种多样性
def xls_find(district):
    #输出行政区名称
    print(district)

    #利用字典查询某行政区的物种
    mask=df['行政区'].values==district
    df_district=df[mask]

    #利用字典进行物种名称统计
    name_list = []
    for i in titles:
        for j in df_district[i].values.tolist():
            name_list.append(j)
    # print(name_list)

    name_dist = {}
    for i in name_list:
        if i not in name_dist:
            name_dist[i] = 1
        else:
            name_dist[i] += 1

    #输出行政区物种多样性数值
    dis_count[district]=len(name_dist)

    #对行政区各个物种的数量进行排序
    df_temp=DataFrame.from_dict(data=name_dist,orient ='index',columns=['数量'])
    df_temp.sort_values(by=['数量'], ascending=False, inplace=True)
    print(df_temp)
    
    #输出csv文件
    filename=district+'.csv'
    df_temp.to_csv(filename, encoding='utf_8_sig')
 
#对于各个行政区循环执行自定函数  
for i in dis:
    xls_find(i)

#排序并输出csv文件
dis_count=DataFrame.from_dict(data=dis_count,orient ='index',columns=['数量'])
dis_count.sort_values(by=['数量'], ascending=False, inplace=True)
print(dis_count)
dis_count.to_csv('各区物种多样性值.csv', encoding='utf_8_sig')

4 分析结果·需求达成

最终成果包括一些6个分布最多的植物的详细数据CSV文件、Shapefile文件与分布图,各区物种多样性详细数据CSV文件。
在这里插入图片描述

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HerbertHu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值