kmeans聚类算法_基于K-means聚类的用户用电行为分析

最新推荐文章于 2024-06-01 00:04:54 发布

weixin_39883705

最新推荐文章于 2024-06-01 00:04:54 发布

阅读量3.2k

点赞数 8

文章标签： kmeans聚类算法

大数据时代，通过简单的仪表监测家庭、工厂等地的实时用电量后，可以通过聚类算法对用户用电特征进行聚类，这有利于：

1.将用电行为类似的用户进行聚合，以便用电公司提供更合理的套餐服务；

2.根据不同类型的用户行为，收取不同的税费；

3.根据不同类型的用户行为，调整电网的输电效率，提高电能利用率。

本次分析采用K-means聚类方法，数据源自Pecan Street Energy Database的数据库文件dataport_sqlite。

具体分析流程如下

1.导入数据

导入必要的模块

%matplotlib inline

import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import pylab
import seaborn as sns
import sqlite3

从数据库文件中读取数据

cwd = os.getcwd()  #获得当前的文件路径
conn = sqlite3.connect(str(cwd) + "/dataport_sqlite") 
cursor = conn.cursor()  #构建指针
query = "SELECT * FROM new_table;"
cursor.execute(query)    #执行读取数据命令
data = cursor.fetchall() #抓取数据

用pandas将数据转换成DataFrame格式

loads_df = pd.DataFrame(data, columns=['id','date','energy_use'])
loads_df.head()

数据中，id代表不同的用户；date代表时间，每15min采集一次；energy_use代表测量的电量，以kW表示。

通过简单的查询命令可以获得数据集的规模：

print("当前数据集含有%s行,%s列"%(loads_df.shape[0],loads_df.shape[1]))

当前数据集含有646981行,3列

print(" 最早时间: %s n 最晚时间: %s"%(loads_df.date.min(),loads_df.date.max()))

最早时间: 2015-07-01 00:00:00
最晚时间: 2015-08-01 00:00:00

（正好是一个月的用电记录）

loads_df['id'].v

最低0.47元/天解锁文章

weixin_39883705

关注

8
点赞
踩
79

收藏

觉得还不错? 一键收藏
0
评论
kmeans聚类算法_基于K-means聚类的用户用电行为分析

大数据时代，通过简单的仪表监测家庭、工厂等地的实时用电量后，可以通过聚类算法对用户用电特征进行聚类，这有利于：1.将用电行为类似的用户进行聚合，以便用电公司提供更合理的套餐服务；2.根据不同类型的用户行为，收取不同的税费；3.根据不同类型的用户行为，调整电网的输电效率，提高电能利用率。本次分析采用K-means聚类方法，数据源自Pecan Street Energy Database的数据库文件d...
复制链接

扫一扫