python做空间聚类,在python中将500,000个地理空间点聚类

最新推荐文章于 2022-08-15 16:28:25 发布

何奇艺

最新推荐文章于 2022-08-15 16:28:25 发布

阅读量294

点赞数

文章标签： python做空间聚类

I'm currently faced with the problem of finding a way to cluster around 500,000 latitude/longitude pairs in python. So far I've tried computing a distance matrix with numpy (to pass into the scikit-learn DBSCAN) but with such a large input it quickly spits out a Memory Error.

The points are stored in tuples containing the latitude, longitude, and the data value at that point.

In short, what is the most efficient way to spatially cluster a large number of latitude/longitude pairs in python? For this application, I'm willing to sacrifice some accuracy in the name of speed.

Edit:

The number of clusters for the algorithm to find is unknown ahead of time.

解决方案

I don't have your data so I just generated 500k random numbers into three columns.

import numpy as np

import matplotlib.pyplot as plt

from scipy.cluster.vq import kmeans2, whiten

arr = np.random.randn(500000*3).reshape((500000, 3))

x, y = kmeans2(whiten(arr), 7, iter = 20) #

plt.scatter(arr[:,0], arr[:,1], c=y, alpha=0.33333);

out[1]:

I timed this and it took 1.96 seconds to run this Kmeans2 so I don't think it has to do with the size of your data. Put your data in a 500000 x 3 numpy array and try kmeans2.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

何奇艺

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python做空间聚类,在python中将500,000个地理空间点聚类

I'm currently faced with the problem of finding a way to cluster around 500,000 latitude/longitude pairs in python. So far I've tried computing a distance matrix with numpy (to pass into the scikit-le...
复制链接

扫一扫

十种常用聚类算法（python完整代码演示）

小刘研CV的博客

09-25

6206

十种常用聚类算法讲解及代码完整实例，包括亲和力传播、聚类聚合、BIRCH、DBSCAN、k-means、.mini-batch K-均值、均值漂移聚类、OPTICS、光谱聚类、高斯混合模型

空间点聚类算法的Python实现

04-23

利用Python实现的空间点聚类算法，设有一空间点云数据，输入之后，设定要聚类的数目，然后可以得到每个类别的中心点以及每个类别的点集。测试程序中会用到vtk进行显示，使用者自行下载安装vtk(pip install vtk)。

参与评论您还未登录，请先登录后发表或查看评论

python快速实现10种聚类算法

weixin_39490300的博客

04-01

1万+

利用python快速实现10种聚类算法

10 种 Python 聚类算法及python实现

qq_19462847的博客

03-16

6644

10 种 Python 聚类算法及python实现 10 种 Python 聚类算法及python实现聚类分析的定义聚类分析是一种无监督的机器学习任务，从现有的数据实现对数据的自然分组，在特征空间中找到群组，只解释输入变量，不对数据进行预测。聚类的结果往往是特征空间的密度区域，来自于群组的示例比其他样本点更接近于质心，可以有边界或者范围。聚类分析解决的问题 1、基于行为发现客户群； 2、将正常数据与异常值和异常行为分开； 3、可以用作市场细分或者用户细分； 4、聚类还可用作特征工程的类型，其中现有

python 聚类_10种Python聚类算法完整操作示例（建议收藏）

ASS-ASH的博客

10-13

1万+

聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的客户群。有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法以及每种算法的不同配置。在本教程中，你将发现如何在 python 中安装和使用顶级聚类算法。完成本教程后，你将知道：聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集，有许多不同的聚类算法和单一的最佳方法。在 scikit-learn 机器学习库的 Python 中如何实现、适配和

birch, Kmeans ，Kmeans，KNN四种聚类算法对二维坐标聚类分析代码_ birch二维坐标空间聚类

06-13

在数据分析和机器学习领域，聚类是一种常用的技术，用于无监督学习中将相似的数据分组。本主题将详细探讨四种常见的聚类算法：BIRCH、K-Means、K-Means++ 和 K-Nearest Neighbors (KNN)，以及它们在二维坐标空间中的...

基于Python的古诗文学网大数据分析项目.zip

最新发布

01-20

Python的库如Re（正则表达式）和BeautifulSoup（网页解析）在这些步骤中将发挥重要作用。之后，我们可能需要用到机器学习算法对数据进行建模。Python的Scikit-learn库提供了多种监督和无监督学习算法，如线性回归...

birch，Kmeans，Kmeans++，KNN四种聚类算法对二维坐标聚类分析代码

12-04

在数据分析和机器学习领域，聚类是一种常用的技术，用于无监督学习中将相似的数据分组。本主题将深入探讨四种常见的聚类算法：BIRCH（ Balanced Iterative Reducing and Clustering using Hierarchies），K-means，K...

[图灵程序设计丛书].Python数据科学手册_Python数据科学手册_

10-03

这本书深入浅出地讲解了Python在数据处理、分析、可视化以及机器学习等多个领域的应用，旨在帮助读者掌握高效的数据科学工具和技术。 1. Python基础：书中的内容首先会涵盖Python的基础语法，包括变量、控制流（如...

Python数据分析数据挖掘

10-31

《Python数据分析与挖掘实战》是一本深入探讨Python在数据科学领域的应用的专业教材。这本书全面覆盖了从数据预处理、探索性数据分析（EDA）到高级数据挖掘技术的各个环节，旨在帮助读者掌握利用Python进行数据处理...

PySAL：Python空间分析库元包-Python开发

05-25

PySAL：Python空间分析库Python空间分析库PySAL，Python空间分析库，是用于地理空间数据科学的开源跨平台库，重点是用Python编写的地理空间矢量数据。它支持开发用于空间分析的高级应用程序，例如从空间数据进行空间聚类，热点和图形的离群值构建，地理回归网络上的统计建模，空间计量经济学等

Python空间数据处理实战

07-31

近几年，基于位置服务的应用层出不穷，如GPS车辆导航、打车、外卖、运动等，产生了大量的具有时空信息的轨迹数据，对此类数据的处理挖掘是城市智能化发展的必经之路。本课程讲述了Python对时空数据的处理，以及机器学习方法在空间数据处理上的应用。

建议收藏！10 种 Python 聚类算法完整操作示例

jgw2008的专栏

08-15

3390

在本文中，你发现了如何在 python 中安装和使用顶级聚类算法。聚类是在特征空间输入数据中发现自然组的无监督问题。有许多不同的聚类算法，对于所有数据集没有单一的最佳方法。在 scikit-learn 机器学习库的 Python 中如何实现、适合和使用顶级聚类算法。作者：Python程序员。......

机器学习：Python实现聚类算法(三)之总结

weixin_30908707的博客

06-08

6396

考虑到学习知识的顺序及效率问题，所以后续的几种聚类方法不再详细讲解原理，也不再写python实现的源代码，只介绍下算法的基本思路，使大家对每种算法有个直观的印象，从而可以更好的理解函数中参数的意义及作用，而重点是放在如何使用及使用的场景。（题外话：今天看到一篇博文：刚接触机器学习这一个月我都做了什么？里面对机器学习阶段的划分很不错，就目前而言我们只要做到前两阶段即可...

python数据分析：聚类分析（cluster analysis）

热门推荐

泛泛之素

11-30

9万+

何为聚类分析聚类分析或聚类是对一组对象进行分组的任务，使得同一组（称为聚类）中的对象（在某种意义上）与其他组（聚类）中的对象更相似（在某种意义上）。它是探索性数据挖掘的主要任务，也是统计数据分析的常用技术，用于许多领域，包括机器学习，模式识别，图像分析，信息检索，生物信息学，数据压缩和计算机图形学。聚类分析本身不是一个特定的算法，而是要解决的一般任务。它可以通过各种算法来实现，这些算法在理解...

各类聚类算法优缺点汇总及python实现

weixin_41019798的博客

12-12

1万+

聚类算法汇总一、方法名字 1.基于质心的算法 K均值算法 K均值算法的优点： 1）是解决聚类问题的一种经典算法，简单、快速 2）对处理大数据集，该算法保持可伸缩性和高效性 3）当簇接近高斯分布时，它的效果较好。 K均值算法的缺点： 1)在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用； 2) 在 K-means 算法中 K 是事先给定的，这个 K 值的选定是非常难以估计的。很多时候，事...

python 基于GPS空间相似度的K-means轨迹聚类

weixin_41669147的博客

03-21

4424

python 基于空间相似度的K-means轨迹聚类数据读取定义不同轨迹间的距离计算距离矩阵k-means聚类这里分享一些轨迹聚类的基本方法，涉及轨迹距离的定义、kmeans聚类应用。需要使用的python库如下 import pandas as pd import numpy as np import random import os import matplotlib.pyplot as plt import seaborn as sns from scipy.spatial.distance im

基于Python实现的聚类算法【K-means&系统聚类&DBSCAN】

王斯的博客

03-23

5761

1.K-means聚类算法过程 1.从n个样本数据中随机选取K个对象作为初始的聚类中心 2.分别计算每个样本到各个聚类中心的距离，讲对象分配到距离最近的聚类中所有对象分配完毕，重新计算K个聚类的中心与前一次计算的K个聚类中心做比较，如果聚类中心发生变化，转到２，否则转到５当质心不发生变化时，停止并输出结果 2. 代码实现 # 1.导入数据 Import dataset from sklearn import datasets iris = datasets.load_iris() # 2.模

实现粒kmeans聚类算法的python代码

03-26

它首先随机初始化质心，然后在每次迭代中将每个数据点分配到最近的质心（使用欧几里得距离），然后更新每个质心的位置以使它们移向其分配的数据点的平均位置。该过程重复进行，直到质心稳定或达到最大迭代次数为止。...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交