Wi-Fi 位置指纹简单实现

shootero@126.com

于 2024-08-11 12:09:58 发布

阅读量694

点赞数 5

分类专栏：软硬结合文章标签： Wi-Fi 位置指纹

本文链接：https://blog.csdn.net/weixin_41850878/article/details/141103516

版权

软硬结合专栏收录该内容

11 篇文章 0 订阅

订阅专栏

"Wi-Fi 位置指纹"（Wi-Fi Positioning System, Wi-Fi Fingerprinting 或简称 Wi-Fi Fingerprint）是一种定位技术，它通过分析无线局域网（Wi-Fi）接入点的信号强度来确定设备的位置。这种技术通常用于室内定位系统，因为GPS在室内环境中往往无法提供准确的位置信息。

Wi-Fi 位置指纹的工作原理大致如下：

训练阶段：
- 在需要提供定位服务的区域内，选择一些已知坐标的参考点（也称为“指纹点”）。
- 在每个参考点上收集来自周围Wi-Fi接入点的信号强度信息（RSSI，Received Signal Strength Indication）。
- 将这些信号强度数据与对应的参考点坐标一起存储到数据库中，形成一个“指纹库”。
定位阶段：
- 当需要定位时，设备收集当前位置附近Wi-Fi接入点的信号强度数据。
- 将收集到的数据与指纹库中的数据进行比较，找出最匹配的一组信号强度模式。
- 根据最接近的指纹数据，计算出设备的大概位置。

这种方法的优点包括：

不需要专门的硬件基础设施。
可以在大多数具有Wi-Fi功能的设备上使用。
在室内环境中可以达到较高的定位精度。

缺点则可能包括：

需要预先建立指纹库，这可能是一个耗时的过程。
定位精度受环境变化的影响较大，例如墙壁、家具和人员移动等。
对于高密度或快速变化的Wi-Fi网络环境，维护指纹库可能较为复杂。

Wi-Fi 位置指纹技术广泛应用于各种场景，如商场导航、博物馆导览、医院患者跟踪等。

训练阶段是Wi-Fi位置指纹定位技术的一个重要组成部分，在这个阶段，系统会收集和记录一系列已知位置的Wi-Fi信号特征，以便之后用来定位未知位置的设备。下面我将详细解释训练阶段的步骤：

训练阶段 (离线阶段)

区域划分：
- 首先，需要确定需要定位的室内区域，并将其划分为若干个参考点（Reference Points, RP）。这些参考点应该是均匀分布在整个区域内的，以确保能够全面地覆盖整个空间。
数据采集：
- 在每个参考点上，使用专用的数据采集设备或者智能手机应用程序来收集Wi-Fi信号特征数据。这些数据通常包括：
  - 接入点的MAC地址
  - 每个接入点的信号强度（RSSI，Received Signal Strength Indication）
  - 其他可能的相关参数，如信道频率、信号质量等
- 数据采集过程需要重复多次，以减少随机噪声的影响并提高数据的质量。
数据记录：
- 收集的数据会被记录下来，并与该参考点的精确位置坐标（通常是经纬度坐标或室内地图上的坐标）关联起来。这些坐标可以通过测量工具或者已有的建筑平面图获得。
数据库构建：
- 所有收集的数据都会被整理并存入一个数据库中。这个数据库就是所谓的“指纹库”，它包含了多个参考点的位置及其相应的Wi-Fi信号特征。
- 数据库的设计需要考虑到查询效率和存储效率，可能还需要对数据进行预处理和标准化。
数据预处理：
- 对收集到的数据进行清洗，去除异常值和错误数据。
- 进行数据归一化或标准化，以保证不同信号强度之间的可比性。
- 有可能还会进行特征选择或降维，以减少数据维度，提高后续定位的效率。
模型训练：
- 使用机器学习算法对数据库中的数据进行训练，以建立定位模型。常用的算法包括K-最近邻(K-Nearest Neighbors, K-NN)、支持向量机(Support Vector Machine, SVM)、决策树(Decision Tree)等。
- 有些研究还采用了更复杂的深度学习方法，比如卷积神经网络(Convolutional Neural Networks, CNNs)来处理Wi-Fi信号数据。
模型验证：
- 利用一部分独立的数据集来验证训练好的模型的准确性。这一步骤有助于调整算法参数，改进模型性能。

训练阶段完成后，就形成了一个包含大量已知位置及其对应Wi-Fi信号特征的指纹库。在实际定位时，系统将收集未知位置设备周围的Wi-Fi信号特征，并与指纹库中的数据进行比较，从而估算出该设备的大致位置。

下面写个代码例子：

使用pandas和scikit-learn库来构建一个基本的Wi-Fi位置指纹数据库，并使用K-最近邻算法来进行位置估计。

加载包含Wi-Fi信号强度数据的CSV文件。
清洗和预处理数据，包括将MAC地址映射为整数ID。
选择了信号最强的前N个接入点作为特征。
将数据集分割为训练集和测试集。
使用K-最近邻分类器训练模型。
对测试集进行预测，并计算平均预测误差。
使用一个新的数据点进行位置估计。

pip install pandas scikit-learn numpy

import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import numpy as np

# 假设我们有一个CSV文件，其中包含从各个参考点收集的Wi-Fi信号强度数据
# CSV文件的格式为: MAC_address, RSSI, x, y
# 其中x, y是参考点的坐标，RSSI是信号强度

# 加载数据
data = pd.read_csv('wifi_data.csv')

# 数据预处理
# 假设我们的数据已经清理过，没有缺失值
# 我们将数据拆分为特征和标签
X = data.drop(['x', 'y'], axis=1)  # 特征：MAC地址和RSSI
y = data[['x', 'y']]               # 标签：x, y坐标

# 将MAC地址转换为数值表示，这里假设MAC地址已经被编码
# 实际应用中，你可能需要根据MAC地址进行编码
# 为了简化，我们假设每个MAC地址都有一个唯一的整数ID
mac_to_id = {mac: i for i, mac in enumerate(X['MAC_address'].unique())}
X['MAC_address'] = X['MAC_address'].map(mac_to_id)

# 特征选择
# 选择信号最强的前N个接入点
N = 5
top_n = X.groupby('MAC_address').mean().sort_values(by='RSSI', ascending=False).head(N).index
X = X[X['MAC_address'].isin(top_n)]

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建并训练模型
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train[['MAC_address', 'RSSI']], y_train)

# 预测测试集的位置
predictions = knn.predict(X_test[['MAC_address', 'RSSI']])

# 计算预测误差
errors = np.sqrt(np.sum((predictions - y_test)**2, axis=1))
mean_error = np.mean(errors)
print(f"平均预测误差: {mean_error:.2f} 米")

# 示例：使用新数据点进行位置估计
new_data_point = {'MAC_address': [mac_to_id['00:11:22:33:44:55']], 'RSSI': [-70]}
new_data_point_df = pd.DataFrame(new_data_point)
predicted_location = knn.predict(new_data_point_df)
print(f"预测位置: {predicted_location[0]}")

生成测试数据，实际要到现场采集

import pandas as pd
import numpy as np
import random

# 设定随机种子以确保结果可复现
np.random.seed(42)

# 定义MAC地址列表
mac_addresses = [
    "00:11:22:33:44:55",
    "00:11:22:33:44:56",
    "00:11:22:33:44:57",
    "00:11:22:33:44:58",
    "00:11:22:33:44:59",
    "00:11:22:33:44:60",
    "00:11:22:33:44:61",
    "00:11:22:33:44:62",
    "00:11:22:33:44:63",
    "00:11:22:33:44:64"
]

# 定义参考点坐标范围
x_range = (0, 100)
y_range = (0, 100)

# 生成数据
data = {
    'MAC_address': [],
    'RSSI': [],
    'x': [],
    'y': []
}

for _ in range(1000):
    mac_address = random.choice(mac_addresses)
    rssi = np.random.normal(-70, 10)  # 平均值为-70，标准差为10
    x = np.random.uniform(x_range[0], x_range[1])
    y = np.random.uniform(y_range[0], y_range[1])
    
    data['MAC_address'].append(mac_address)
    data['RSSI'].append(rssi)
    data['x'].append(x)
    data['y'].append(y)

# 创建DataFrame
df = pd.DataFrame(data)

# 保存为CSV文件
df.to_csv('wifi_data.csv', index=False)

print("Data saved to wifi_data.csv")