地图可视化是数据分析和地理信息系统中的重要环节。Python提供了多个强大的库,如Folium、Matplotlib、Geopandas等,使得创建漂亮而具有信息量的地图变得简单而灵活。本文将详细介绍如何使用这些库绘制漂亮的地图,并提供丰富的示例代码。
安装所需库
首先,确保已经安装了必要的库。可以使用以下命令安装:
pip install folium matplotlib geopandas
使用Folium创建交互式地图
Folium是一个基于Leaflet.js的Python库,可以轻松创建交互式地图。
以下是一个简单的使用Folium创建地图的示例:
import folium
# 创建地图对象
m = folium.Map(location=[37.7749, -122.4194], zoom_start=12)
# 在地图上添加标记
folium.Marker([37.7749, -122.4194], popup='San Francisco').add_to(m)
# 保存地图为HTML文件
m.save('interactive_map.html')
使用Matplotlib绘制基本地图
Matplotlib也提供了地图绘制的功能。
以下是一个使用Matplotlib创建简单地图的示例:
import matplotlib.pyplot as plt
import geopandas as gpd
# 读取世界地图数据
world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
# 绘制世界地图
world.plot()
plt.title('World Map')
plt.show()
使用Geopandas绘制更丰富的地图
Geopandas是在Pandas基础上构建的地理数据处理库,它简化了地理空间数据的处理和可视化。
以下是一个使用Geopandas创建丰富地图的示例:
import geopandas as gpd
import matplotlib.pyplot as plt
# 读取世界地图数据
world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
# 可视化地图
world.plot(column='gdp_md_est', cmap='OrRd', legend=True, figsize=(15, 10))
plt.title('World Map with GDP')
plt.show()
使用Folium绘制热力图
Folium不仅可以创建基本地图,还支持绘制热力图,展示数据的空间分布。
以下是一个使用Folium创建热力图的示例:
import folium
from folium.plugins import HeatMap
# 创建地图对象
m = folium.Map(location=[37.7749, -122.4194], zoom_start=12)
# 添加热力图数据点
heat_data = [[37.7749, -122.4194] for _ in range(100)]
# 添加热力图层
HeatMap(heat_data).add_to(m)
# 保存地图为HTML文件
m.save('heatmap.html')
绘制带标记的地图
有时候需要在地图上标记特定位置,如城市、地标或数据采样点。
以下是一个使用Geopandas和Matplotlib绘制带标记的地图的示例:
import geopandas as gpd
import matplotlib.pyplot as plt
# 读取城市数据
cities = gpd.read_file(gpd.datasets.get_path('naturalearth_cities'))
# 绘制世界地图
world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
ax = world.plot(figsize=(15, 10))
# 在地图上添加城市标记
cities.plot(ax=ax, marker='o', color='red', markersize=50)
plt.title('World Map with City Markers')
plt.show()
使用Plotly创建交互式地图
Plotly是另一个强大的可视化库,支持创建交互式地图。
以下是一个使用Plotly创建地图的示例:
import plotly.express as px
# 读取世界地图数据
world = px.data.world()
# 绘制世界地图
fig = px.choropleth(world, locations='iso_alpha', color='pop',
hover_name='country', color_continuous_scale='Viridis',
title='World Map with Population')
fig.show()
地图美化和定制
地图的美化和定制是使地图更有吸引力和可读性的关键步骤。
以下是一个使用Folium定制地图样式的示例:
import folium
# 创建地图对象
m = folium.Map(location=[37.7749, -122.4194], zoom_start=12, control_scale=True)
# 添加自定义标记
folium.Marker([37.7749, -122.4194], popup='San Francisco', icon=folium.Icon(color='red')).add_to(m)
# 添加自定义边界
folium.RegularPolygonMarker([37.7808, -122.4128], popup='Another Location',
fill_color='#132b5e', number_of_sides=4, radius=10).add_to(m)
# 添加文本标签
folium.Marker([37.7749, -122.4194], popup='<strong>San Francisco</strong>', tooltip='Click me!').add_to(m)
# 保存地图为HTML文件
m.save('customized_map.html')
绘制路径和连接线
在地图上绘制路径和连接线有助于展示地理关系和运动轨迹。
以下是一个使用Folium在地图上绘制路径的示例:
import folium
# 创建地图对象
m = folium.Map(location=[37.7749, -122.4194], zoom_start=12)
# 添加路径
folium.PolyLine(locations=[[37.7749, -122.4194], [37.7808, -122.4128]],
color='blue', weight=2.5, opacity=1).add_to(m)
# 保存地图为HTML文件
m.save('path_map.html')
地图动画
在一系列时间点上展示地图的变化可以通过地图动画来实现。
以下是一个使用Folium创建地图动画的示例:
import folium
from folium.plugins import TimestampedGeoJson
# 创建地图对象
m = folium.Map(location=[37.7749, -122.4194], zoom_start=12)
# 添加时间戳地理JSON数据
geojson_data = {
'type': 'FeatureCollection',
'features': [
{
'type': 'Feature',
'geometry': {'type': 'Point', 'coordinates': [-122.4194, 37.7749]},
'properties': {'time': '2023-01-01T00:00:00'}
},
{
'type': 'Feature',
'geometry': {'type': 'Point', 'coordinates': [-122.4128, 37.7808]},
'properties': {'time': '2023-01-02T00:00:00'}
}
]
}
TimestampedGeoJson(geojson_data, period='PT1H', duration='PT1H').add_to(m)
# 保存地图为HTML文件
m.save('animated_map.html')
决策树算法如何工作
套用西瓜书上的一个图来说明决策树算法是如何工作的:
我们挑选西瓜时,都会考虑西瓜脐部、色泽、根蒂以及敲一敲听声音等因素(特征),决策树就是对这些考虑因素进行逐个拆解,从而判断西瓜(样本)是好瓜还是坏瓜(类别)。
从上面来看,这些特征好像都是离散型的,对于 Iris 数据集中数值特征来说,我们可以设定一个阈值,比如判断萼片宽度(sepal width)是否小于 2.5 厘米。
决策树算法从树根开始,选择能够产生最大信息增益(Information Gain,IG)的特征进行数据集拆分,一直到叶子节点为止,所有叶子节点中的样本都属于同一个类别,这样就可能会产生非常深的树,从而引发过拟合问题,所以就需要对树进行剪枝以限制树的深度(模型复杂度)。
最大化信息增益
信息增益的公式定义如下
f 是要执行拆分的特征,Dp 和 Dj 表示父节点 p 和第 j 个孩子节点中的样本集,Np 和 Nj 分别表示父节点 p 和第 j 个孩子节点中的训练样本数量。I 就表示节点的纯度。
所以信息增益就是衡量父节点纯度和所有孩子节点纯度加权和的差异。
包括 scikit-learn 在内的大多数机器学习库的决策树算法都会将父节点分裂成左右两个孩子节点,所以信息增益公式可以简化为:
三种纯度衡量指标
现在有 Gini 纯度、熵和分类错误三种节点纯度衡量指标。
首先我们看一下熵(entropy):
p(i|t) 表示节点 t 中属于类别 i 的样本占该节点中所有样本的比例。如果节点 t 中所有样本都属于同一个类别,那么熵就是 0,表示这个节点没有不确定性;如果节点 t 中的每个样本都分属于不同的类别,那么此时熵最大,表示这个节点的不确定性最大。
Gini 纯度可以看作是最小化误分类概率的指标:
在实际应用中,Gini 纯度和熵表现很类似,所以不建议花很多精力去比较在选择哪种纯度衡量指标。相反更应集中精力实验不同决策树剪枝技巧。
最后一个就是分类错误:
这个指标适合用来做决策树剪枝,但是由于它对于节点中类别概率分布不敏感,所以它不适合用来生成决策树。
生成决策树
我们现在使用 scikit-learn 提供的 DecisionTreeClassifier 构建一个深度为 4,采样 Gnini 纯度的分类决策树,还是使用 Iris 数据集。
决策树算法不要求特征缩放。
可以看到这些决策边界几乎和坐标轴平行。
我们可以可视化生成的决策树,从而也能对模型的预测结果做出解释。
树分支的左孩子表示满足父节点中的判断条件,右孩子表示不满足条件。
总结
在本文中,详细介绍了如何使用Python绘制漂亮而具有信息层次的地图。通过使用Folium、Matplotlib、Geopandas和Plotly等库,展示了从创建基本地图到高级地图定制的多种技术和示例代码。从简单的地图标记和热力图到复杂的地理空间数据可视化,覆盖了多个方面的地图绘制。通过示例代码,可以学到如何绘制交互式地图、热力图、路径和连接线,以及如何在地图上添加自定义标记和边界。还介绍了使用Plotly创建交互式地图和地图动画的方法,进一步提升了地图的可视化效果。
最后,强调了地图的美化和定制的重要性,展示了如何调整地图样式、添加标签、绘制路径和连接线,以及创建地图动画。这些技术使地图更富有吸引力,更好地传达数据信息。通过学习这些地图绘制技巧,能够在数据科学、地理信息系统和其他领域更自如地应用Python进行地图可视化工作。