python大数据
文章平均质量分 85
元神の助手
这个作者很懒,什么都没留下…
展开
-
pysal安装过程,避坑记录
Pysal是一个面向地理空间数据科学的开源跨平台库,重点是用python编写的地理空间矢量数据。它支持空间分析高级应用程序的开发。在安装过程遇到不少坑,现在记录下来。我使用的是python3.7的在conda虚拟环境下。直接通过pip 或者conda install 后运行时不行的,因为pysal有许多依赖包要安装。最重要的就是这个geopandas包,Geopandas包介绍看这里。这个Geopands包又依赖于:gdal、Shapely、Fiona、pyproj这四个包,因此在安装geopand原创 2022-03-31 13:01:55 · 5019 阅读 · 1 评论 -
Python空间分析| 01 利用Python计算全局莫兰指数(Global Moran‘s I)
全局空间自相关空间自相关(spatial autocorrelation)是指一些变量在同一个分布区内的观测数据之间潜在的相互依赖性。Tobler(1970)曾指出“地理学第一定律:任何东西与别的东西之间都是相关的,但近处的东西比远处的东西相关性更强”全局莫兰指数(Global Moran's I)是最常用的空间自相关指数,用来反映全局的空间相关性,其计算公式为:$$ I = \frac N W \frac {\sum_i \sum_j w_{ij} (x_i-\bar x) (x_j-\bar转载 2022-03-29 15:48:12 · 3722 阅读 · 0 评论 -
聚类算法分类及如何选择某类方法
聚类算法分类:(1)划分聚类算法:也称为基于距离的聚类算法,此类算法中,簇的数量是随机选择的或最初给定的。属于这一类的算法有K-Meansl,PAM,CLARANSI等。K-means聚类算法的不足之处在于它要多次扫描数据库,此外,它只能找出球形的类,而不能发现任意形状的类。还有,初始质心K的选择对聚类结果有较大的影响,该算法对噪声很敏感。划分方法具有线性复杂度,聚类的效率高的优点。然而,由于它要求输入数字k确定结果簇的个数,并且不适合于发现非凸面形状的簇,或者大小差别很大的簇,所以这些启发式聚原创 2022-03-22 10:39:16 · 7491 阅读 · 0 评论 -
Python机器学习:Grid SearchCV(网格搜索)
Python机器学习笔记:Grid SearchCV(网格搜索) - 战争热诚 - 博客园https://www.cnblogs.com/wj-1314/p/10422159.html 在机器学习模型中,需要人工选择的参数称为超参数。比如随机森林中决策树的个数,人工神经网络模型中隐藏层层数和每层的节点个数,正则项中常数大小等等,他们都需要事先指定。超参数选择不恰当,就会出现欠拟合或者过拟合的问题。而在选择超参数的时候,有两个途径,一个是凭经验微调,另一个就是选择不同大小的参数,带入模型中,挑选表现最好转载 2022-03-11 09:30:07 · 57914 阅读 · 0 评论 -
Matplotlib绘制散点数据等高线,以空间核密度分布为例
Matplotlib:散点数据等高线,以空间核密度分布为例原创 2022-02-23 20:28:07 · 4107 阅读 · 0 评论 -
核密度聚类(二)核密度估计、自适应核密度的数学原理
1 分布密度函数 给定一个样本集,怎么得到该样本集的分布密度函数,解决这一问题有两个方法:1.1 参数估计方法简单来讲,即假定样本集符合某一概率分布,然后根据样本集拟合该分布中的参数,例如:似然估计,混合高斯等,由于参数估计方法中需要加入主观的先验知识,往往很难拟合出与真实分布的模型;1.2 非参数估计和参数估计不同,非参数估计并不加入任何先验知识,而是根据数据本身的特点、性质来拟合分布,这样能比参数估计方法得出更好的模型。核密度估计就是非参数估计中的一种,由Rosenbla...转载 2022-02-22 16:50:58 · 5485 阅读 · 1 评论 -
核密度聚类(一)核函数、核密度估计、核密度聚类
核密度聚类当问题需要自动地确定聚类数目时,传统的KMeans等聚类方法不在适用。因此,使用“核概率密度估计”的思路自行设计了两种聚类方法。本文收录:核是什么 核密度估计 基于核密度估计的两种聚类方法 代码实现核函数有一些数据,想“看看”它长什么样,基于高中的知识,我们一般会画频率分布直方图(Histogram)。但基于大学的知识,此时也可以用核密度估计,因为之前的知识水平让我们默认为频率等于概率,但实际情况不一定如此。这里的“核”是一个函数,用来提供权重。例如高斯函数 (Gaus转载 2022-02-22 16:33:37 · 8617 阅读 · 0 评论 -
Python 制作统计图形的库seaborn
Seaborn 是一个用 Python 制作统计图形的库。它建立在matplotlib之上,并与pandas数据结构紧密集成。与matplotlib的区别Seaborn 可帮助您探索和理解您的数据。它的绘图功能对包含整个数据集的数据框和数组进行操作,并在内部执行必要的语义映射和统计聚合以生成信息图。其面向数据集的声明式 API 让您可以专注于绘图的不同元素的含义,而不是关注如何绘制它们的细节。与直接使用 matplotlib 不同,不需要根据颜色值或标记代码指定绘图元素的属性。在幕后,se翻译 2022-02-21 14:57:21 · 360 阅读 · 0 评论