从GPS离散点统计活动圈子

背景数仓里面有一些IP和GPS共现的数据,希望从这些数据中汇总出IP的大致活动范围方案将IP的离散分布点聚合后,排除离群点,再对非离群点求得最小圆覆盖,考虑到同一个IP可能会在多个地方都有GPS分布,因此可能会有多个聚集点,在求最小圆覆盖前需要多GPS点分类,再对不同的类求最小覆盖圆。此外在计算最小覆盖圆时需要将GPS坐标投影到平面坐标上去,来计算距离。对GPS分类前,需要计算分为几类,可以先用层次聚类求得分为几个类,再用Kmeans来进行聚类。最小覆盖圆的算法网上可以搜索到一些,本文参考了 h
摘要由CSDN通过智能技术生成

背景

数仓里面有一些IP和GPS共现的数据,希望从这些数据中汇总出IP的大致活动范围

方案

将IP的离散分布点聚合后,排除离群点,再对非离群点求得最小圆覆盖,考虑到同一个IP可能会在多个地方都有GPS分布,因此可能会有多个聚集点,在求最小圆覆盖前需要多GPS点分类,再对不同的类求最小覆盖圆。 (也可以不分类,直接求一个圆)

此外在计算最小覆盖圆时需要将GPS坐标投影到平面坐标上去,来计算距离(python中可以用pyproj来进行坐标转换,但是我在spark中使用时,出现了一些问题:pyspark中使用的pyproj是1.9,导致无法从wgs84 转到Web 墨卡托坐标,因此代码中我写了手动转的方法,不过会有一点点误差)。

如果需要聚成多个圈子的话,在对GPS分类前,需要计算分为几类,可以先用层次聚类求得分为几个类,再用Kmeans来进行聚类。

最小覆盖圆的算法网上可以搜索到一些,本文参考了
https://github.com/platinhom/platinhom.github.com/blob/master/_posts/2015-11-11-MinCircleforPoints.md

代码

# -*- coding: utf-8 -*-
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.cluster.hierarchy as sch  # 用于进行层次聚类,画层次聚类图的工具包
import scipy.spatial.distance as ssd
from scipy.cluster.vq import vq, kmeans, whiten
import numpy as np
from matplotlib.patches import Ellipse, Circle
import math

# 长半轴
a = 6378245.0;
# 扁率
ee = 0.00669342162296594323;


# 纬度转换
def transformlat(lng, lat):
    ret = -100.0 + 2.0 * lng + 3.0 * lat + 0.2 * lat * lat + 0.1 * lng * lat + 0.2 * math.sqrt(abs(lng))
    ret += (20.0 * math.sin(6.0 * lng * math.pi) + 20.0 * math.sin(2.0 * lng * math.pi)) * 2.0 / 3.0
    ret += (20.0 * math.sin(lat * math.pi) + 40.0 * math.sin(lat / 3.0 * math.pi)) * 2.0 / 3.0
    ret += (160.0 * math.sin(lat / 12.0 * math.pi) + 320 * math.sin(lat * math.pi / 30.0)) * 2.0 / 3.0
    return ret;


def transformlng(lng, lat):
    ret = 300.0 + lng + 2.0 * lat + 0.1 * lng * lng + 0.1 * lng * lat + 0.1 * math.sqrt(abs(lng));
    ret += (20.0 * math.sin(6.0 * lng * math.pi) + 20.0 * math.sin(2.0 * lng * math.pi)) * 2.0 / 3.0;
    ret += (20.0 * math.sin(lng * math.pi) + 40.0 * math.sin(lng / 3.0 * math.pi)) * 2.0 / 3.0;
    ret += (150.0 * math.sin(lng / 12.0 * math.pi) + 300.0 * math.sin(lng / 30.0 * math.pi)) * 2.0 / 3.0;
    return ret;


def wgs84togcj02(lng, lat):
    dlat = transformlat(lng - 105.0, lat - 35.0)
    dlng = transformlng(lng - 105.0, lat - 35.0)
    radlat = lat / 180.0 * math.pi;
    magic = math.sin(radlat);
    magic = 1 - ee * magic * magic;
    sqrtmagic = math.sqrt(magic);
    dlat = (dlat * 180.0) / ((a * (1 - ee)) / (magic * sqrtmagic) * math.pi);
    dlng = (dlng * 180.0) / (a / sqrtmagic * math.cos(radlat) * math.pi);
    mglat = lat + dlat;
    mglng = lng + dlng;
    return mglng, mglat;


def gcj02towgs84(lng, lat):
    dlat = transformlat(lng - 105.0, lat - 35.0);
    dlng = transformlng(lng - 105.0, lat - 35.0);
    radlat = lat / 180.0 * math.pi;
    magic = math.sin(radlat);
    magic = 1 - ee * magic * magic;
    sqrtmagic = math.sqrt(magic);
    dlat = (dlat * 180.0) / ((a * (1 - ee)) / (magic * sqrtmagic) * math.pi);
    dlng = (dlng * 180.0) / (a / sqrtmagic * math.cos(radlat) * math.pi);
    mglat = lat + dlat;
    mglng = lng + dlng;
    return lng * 2 - mglng, lat * 2 - mglat;


# 经纬度转Wev墨卡托
def lonLat2WebMercator(lng, lat):
    lng, lat = gcj02towgs84(lng, lat)
    x = lng * 20037508.34 / 180;
    y = math.log(math.tan((90 + lat) * math.pi / 360)) / (math.pi / 180);
    y = y * 20037508.34 / 180
    return [x, y]


# Web墨卡托转经纬度
def WebMercator2lonLat(x, y):
    lng = x / 20037508.34 * 180;
    lat = y / 20037508.34 * 180;
    lat = 180 / math.pi * (2 * math.atan(math.exp(lat * math.pi / 180)) - math.pi / 2);
    lng, lat = wgs84togcj02(lng, lat)
    return [lng, lat]


def lonLatArray2WebMercator(lng_lat_array):
    array = []
    for (lng, lat) in lng_lat_array:
        array.append(lonLat2WebMercator(lng, lat))
    return array


# 离群点删除
def detect_outliers(data, threshold=3):
    mean_d = np.mean(data[:, 0])
    std_d = np.std(data[:, 0])

    mean_d_1 = np.mean(data[:, 1])
    std_d_1 = np.std(data[:, 1])

    data_filter = []
    for y in data:
        if std_d == 0 and std_d_1 == 0:
            data_filter.append(True)
        else:
            z_score = (y[0] - mean_d) / std_d
            z_score_1 = (y[1] - mean_d_1) / std_d_1
            if (std_d == 0 or abs(z_score) <= threshold) and (abs(z_score_1) <= threshold or std_d_1 == 0):
                data_
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值