本发明属于软件算法技术领域,具体涉及一种地理位置聚类方法。
背景技术:
随着计算机技术的发展,现今,我们需要地图导航时,大都使用电子地图,从电子地图上输入目的地后,能够直接在地图上定位该目的地。但是,现有的算法会出现提取不正确、或其它原因导致的异常点,从而会导致生产的地理位置数据不准确。或者由于地理位置生产者使用不同坐标系而产生位置漂移的问题。
技术实现要素:
本发明是为了解决上述问题而进行的,目的在于提供一种能够排除提取不正确或其它原因导致的异常点,从而生产正确、无噪音的地理位置数据,并且还可以消除由于地理位置生产者使用不同坐标系而产生的位置漂移的地理位置聚类方法。
本发明提供了一种地理位置聚类方法,其特征在于,包括以下步骤:步骤1,判断数据点集是否符合正态分布,如果符合则进入步骤2,如果不符合则结束;
步骤2,根据所述数据点集的正态分布基于预定规则得出所述数据点集的核函数的带宽;
步骤3,根据所述数据点集基于预定规则确定起始点;
步骤4,根据所述起始点、所述带宽基于预定规则得到所述起始点移动到的终点,标记从所述起始点移动到所述终点的计算过程中访问过的所述数据点集中的数据,并将标记的数据归为一个簇;
步骤5,判断所述数据点集中的所有数据是否均被标记过,如果所述数据点集中的所有数据均被标记过则进入步骤7,如果所述数据点集中有未被标记的数据,则进入步骤6;
步骤6,将所述数据点集中被标记过的数据剔除,将未被标记的数据作为新的数据点集计算得到新的起始点,然后返回步骤4;
步骤7,将得到的所有簇两两进行组合,判断每个组合中的两个簇的终点之间的距离与距离阈值的大小,如果两个簇的终点之间的距离小于距离阈值,则将该两个簇合并,如果两个簇的终点之间的距离大于距离阈值,则将两个簇分别作为单独的簇,并基于预定规则将所述数据点集中属于多个簇的多簇数据的进行归类。
进一步,在本发明提供的地理位置聚类方法中,还可以具有这样的特征:其中,步骤1中,根据数据点集分布的偏度和峰度来判断数据点集是否符合正态分布,偏度和峰度的计算方法如下:
S表示偏度;C表示峰度;xi表示数据点集中的一个数据