数据来源:通过www.flickr.com/services/api接口抓取带地理标记的flickr图片及属性数据,筛选年份,经过数据清洗,得到样本数据。
使用软件:python 3
需求:得到热点区域AOI
参考文献:
1.《基于地理标记照片的北京市入境旅游流空间特征》
2.https://www.cnblogs.com/pinard/p/6208966.html
具体思路:
首先将数据进行整理、清洗;然后使用Python scikit-learn中的DBSCAN聚类方法,选择合适的搜索半径,以及个数点,得到聚类结果;求出没个聚类点的中心位置,就可得到热点区域AOI。
聚类DBSCAN算法:
DBSCAN是基于一组邻域来描述样本集的紧密程度的,参数(ϵϵ, MinPts)用来描述邻域的样本分布紧密程度。其中,ϵϵ描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为ϵϵ的邻域中样本个数的阈值。
假设我的样本集是D=(x1,x2,...,xm)(x1,x2,...,xm),则DBSCAN具体的密度描述定义如下:
1) ϵϵ-邻域:对于xj∈Dxj∈D,其ϵϵ-邻域包含样本集D中与xjxj的距离不大于ϵϵ的子样本集,即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)||Nϵ(xj)|
2) 核心对象:对于任一样本xj∈Dxj∈D,如果其ϵϵ-邻域对应的Nϵ(xj)Nϵ(xj)至少包含MinPts个样本ÿ