数据集笔记:OpenCelliD(手机基站开放数据库)

下载数据的方式可见:【数据获取】全球最大手机基站开源数据库

1 读取数据

文件在linux中可以用如下方式解压:gunzip 454.csv.gz

import pandas as pd

pd.read_csv('C:/Users/16000/Downloads/454.csv/454.csv',
            header=None,
            names=['radio','mcc','net','area','cell','unit',
                  'lon','lat','range','samples','changeable1',
                  'created1','updated','AveSignal'])
            #names=['Radio','MCC','MNC','LAC/TAC/NID','CID','Longitude','Latitude','Range','Samples','Changeable=1','Changeable=0','Created','Updated','AverageSignal'])

2 每一列含义

Radio宽带蜂窝网络技术(例如 LTE, GSM)
MCC移动国家代码
MNC移动网络代码
LAC/TAC/NID位置区域代码
CID用于识别每个基站收发信机或BTS的扇区
Longitude经度
Latitude纬度
Range信号基站可能存在的大致区域(以米为单位)
Samples处理以获得特定数据点的测量次数
Changeable=1位置是通过处理样本来确定的
Changeable=0位置是直接从电信公司获得的
Created特定单元首次添加到数据库的时间(UNIX时间戳)
Updated特定单元最后一次出现的时间(UNIX时间戳)
AverageSignal

平均信号强度

如果这个值是0,表示没有使用信号强度来确定基站位置

3 将created1和updated 时间戳由unix转化为秒

opencellid['created1']=pd.to_datetime(opencellid['created1'],unit='s')
opencellid['updated']=pd.to_datetime(opencellid['updated'],unit='s')
opencellid

4 一些额外说明

4.1 是否有重复的计数?

Defining what constitutes a "cell" - General - The OpenCelliD Community

  • 不,每一行代表一个独立的cell。由于数据收集的方式,我们不知道一个特定的小区是否已经停止服务或已被其他小区替代。
  • 如果一个特定的位置有5个2G小区,后来全部转换为4G小区,那么OpenCelliD将显示该位置有10个小区被扫描到。

 4.1.1 点是否过多?

Position tower 4G - The OpenCelliD Community

我下载了数据库,并使用 Python 通过经度和纬度把 csv 文件的所有行绘制到了一张地图上。但是有很多信号塔,这对我来说似乎有点奇怪。 在 opencellid 网站上,它们要少得多(照片)。 这是为什么呢?

数据库包含了小区(cell)大致位置的信息。每个物理蜂窝塔上可以有多个小区。如果你想要获得独立物理蜂窝塔的位置,你需要将彼此靠近的小区进行聚类

4.2 cell和信号塔的关系

Defining what constitutes a "cell" - General - The OpenCelliD Community

“单元(cell)”在技术上是否被归类为其他事物?例如,一个多频段天线会被计算为多个单元吗?

启用了MIMO(多输入多输出)的资产(例如,在4G中的2x2、4x4,或在5G中的64x64或128x128)开始被计算为多个单元吗?

在从 OpenCelliD 下载的数据中,每一行代表一个位于物理信号塔上的单独cell。每个物理塔上可以有多个cell/基站。如果cell的标识符不同,则会在我们的数据库中显示为两个独立的小区。

4.3 信号基站的位置

  • OpenCellID提供的导出文件和API中的GPS小区位置可能是精确的或是计算得出的(平均值)
    • 如果changeable为0,表示精确值;否则为平均值

4.4 OpenCellID中小区塔实际位置与报告位置之间存在差异

主要原因有两个:

4.4.1 小区塔和小区是两件不同的事情

  • 在一个物理小区塔上安装只发射360度GSM信号的单个天线是非常罕见的。更常见的情况是,一个小区塔上安装了几个天线
  • 在这种情况下,每个天线服务于360度圆的一部分区域
    • 示例中的一个小区塔,每个天线发射120度的信号。
    • 这就是小区塔数量和小区ID数量之间存在很大差异的原因

  • 例如,沃达丰在德国报告的小区塔("Basisstationen")不到40,000个,但截至2014年8月,OpenCellID报告的沃达丰在德国的小区ID超过290,000个
    • 这意味着平均每个小区塔携带超过七个天线(=小区)
  • 理解了小区塔和小区不是一回事之后,让我们看看这对计算每个小区ID的GPS位置意味着什么
    • 想象一下,已经收集了许多小区ID测量,均匀分布在饼图的一个扇区中
    • 在这种情况下,所有记录的GPS位置的平均值将如上图所示(例如“区域1的中心”)
    • 这将是OpenCellID报告的位置
    • 也就是说,和实际的小区塔是有一定的出入的

4.4.2 小区塔的测量并不总是均匀分布在小区塔周围

  • 想象一下,一个小区塔位于山上,只有一条路从一侧经过:
  • 在这种情况下,测量不会均匀分布在小区塔周围,这意味着大部分测量可能只来自小区塔的一侧。结果,对所有这些测量的GPS位置进行平均,很可能无法准确定位相应小区塔分段区域的中心。
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值