《数据分析与挖掘第十章家用电器用户行为分析与事件识别》

最新推荐文章于 2024-06-04 11:50:00 发布

marraybug

最新推荐文章于 2024-06-04 11:50:00 发布

阅读量330

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/marraybug/article/details/118227109

版权

python 专栏收录该内容

115 篇文章 27 订阅

订阅专栏

家用电器用户行为分析与事件识别

数据抽取 首先对原始数据采用无放回的随机抽取 数据预处理 热水器编号对实验无实际性的意义，这个属性特征是可以删除的有无水流可以用水流量来表示，因此这个属性是没有必要的节能模式是一种模式，所有数据都是一样的，因此也是可以删去的属性删去三种属性之后，留下九种属性

又，热水器“开关状态”为关的时候，“水流量”为0时，说明热水器不工作，此条数据是可以删除的

数据变化 除了筛选出这九个属性之外在这里插入图片描述我们还要知道每次使用水的行为，要区分几次流水的情况，是属于同一次用水行为，还是好几次用水行为，这就需要计算两次流水间隔时间，设定一个阈值T，如果间隔时间大于这个T值，就说明是两次用水事件，如果小于T，就说明是一次用水事件

下面对用水事件进行划分：

    #-*- coding: utf-8 -*-
    #用水事件划分
    import pandas as pd
    
    threshold = pd.Timedelta('4 min') #阈值为分钟
    inputfile = 'water_heater.xls' #输入数据路径,需要使用Excel格式
    outputfile = 'dividsequence.xls' #输出数据路径,需要使用Excel格式
    
    data = pd.read_excel(inputfile)
    #将时间字符串，变成时间的标准格式
    data[u'发生时间'] = pd.to_datetime(data[u'发生时间'], format = '%Y%m%d%H%M%S')

将时间从20141019063917变成了2014-10-19 06:39:17

    data = data[data[u'水流量'] > 0] #只要流量大于0的记录

从18840条记录中选出了7696条数据，这些事全部检测到在使用水的数据，相邻数据做差，既是时间间隔 data[u’发生时间’].diff() 求时间间隔

    d = data[u'发生时间'].diff() > threshold #相邻时间作差分，比较是否大于阈值

d这是是一些列的bool类型值

    #-*- coding: utf-8 -*-
    #用水事件划分
    import pandas as pd
    
    threshold = pd.Timedelta('4 min') #阈值为分钟
    inputfile = 'water_heater.xls' #输入数据路径,需要使用Excel格式
    outputfile = 'dividsequence.xls' #输出数据路径,需要使用Excel格式
    
    data = pd.read_excel(inputfile)
    #将时间字符串，变成时间的标准格式
    data[u'发生时间'] = pd.to_datetime(data[u'发生时间'], format = '%Y%m%d%H%M%S')
    data = data[data[u'水流量'] > 0] #只要流量大于0的记录
    
    d = data[u'发生时间'].diff() > threshold #相邻时间作差分，比较是否大于阈值
    data[u'事件编号'] = d.cumsum() + 1
    #cumsum()
    #d.cumsum()求出来的是从0开始的，但是为了让第一件事件记为1，所以+1
    #通过累积求和的方式为事件编号
    
    data.to_excel(outputfile)

在这里插入图片描述 阈值的选取 我们事件的划分是根据两次流水之间的间隔时间阈值来看的，不同的阈值会导致划分事件的结果不同，那么该如何选取阈值呢，绘制阈值与事件个数的曲线，趋势平缓的部分，说明用户的停顿习惯趋于稳定，应该以该段时间开始作为阈值，选取曲线较为平缓的五个点，放大观看

阈值的优化 五个点出现四个斜率，算四段斜率绝对值的平均值K，作为最左端点的斜率指标若K<1则，选这一段的坐左边的点A作为阈值若K>=1且<5则用最小斜率指标的最左边的点作为阈值若K>5，则直接以4作为阈值

    #阈值寻优
    import numpy as np
    import pandas as pd
    
    inputfile = 'water_heater.xls' #输入数据路径,需要使用Excel格式
    n = 4 #使用以后四个点的平均斜率
    
    threshold = pd.Timedelta(minutes = 5) #专家阈值
    data = pd.read_excel(inputfile)
    data[u'发生时间'] = pd.to_datetime(data[u'发生时间'], format = '%Y%m%d%H%M%S')
    data = data[data[u'水流量'] > 0] #只要流量大于0的记录
    
    def event_num(ts):
      d = data[u'发生时间'].diff() > ts #相邻时间作差分，比较是否大于阈值
      return d.sum() + 1 #这样直接返回事件数
    
    dt = [pd.Timedelta(minutes = i) for i in np.arange(1, 9, 0.25)]
    h = pd.DataFrame(dt, columns = [u'阈值']) #定义阈值列
    h[u'事件数'] = h[u'阈值'].apply(event_num) #计算每个阈值对应的事件数
    h[u'斜率'] = h[u'事件数'].diff()/0.25 #计算每两个相邻点对应的斜率
    h[u'斜率指标'] = h[u'斜率'].abs().rolling(n).mean() #采用后n个的斜率绝对值平均作为斜率指标
    ts = h[u'阈值'][h[u'斜率指标'].idxmin() - n]
    #注：用idxmin返回最小值的Index，由于rolling(n).mean()自动计算的是前n个斜率的绝对值平均
    #所以结果要进行平移（-n）
    
    if ts > threshold:
      ts = pd.Timedelta(minutes = 4)
    
    print(ts)

dt是1-9分钟每隔0.25分钟取的阈值点： [Timedelta(‘0 days 00:01:00’), Timedelta(‘0 days 00:01:15’), Timedelta(‘0 days 00:01:30’), Timedelta(‘0 days 00:01:45’), Timedelta(‘0 days 00:02:00’), Timedelta(‘0 days 00:02:15’), Timedelta(‘0 days 00:02:30’), Timedelta(‘0 days 00:02:45’), Timedelta(‘0 days 00:03:00’), Timedelta(‘0 days 00:03:15’), Timedelta(‘0 days 00:03:30’), Timedelta(‘0 days 00:03:45’), Timedelta(‘0 days 00:04:00’), Timedelta(‘0 days 00:04:15’), Timedelta(‘0 days 00:04:30’), Timedelta(‘0 days 00:04:45’), Timedelta(‘0 days 00:05:00’), Timedelta(‘0 days 00:05:15’), Timedelta(‘0 days 00:05:30’), Timedelta(‘0 days 00:05:45’), Timedelta(‘0 days 00:06:00’), Timedelta(‘0 days 00:06:15’), Timedelta(‘0 days 00:06:30’), Timedelta(‘0 days 00:06:45’), Timedelta(‘0 days 00:07:00’), Timedelta(‘0 days 00:07:15’), Timedelta(‘0 days 00:07:30’), Timedelta(‘0 days 00:07:45’), Timedelta(‘0 days 00:08:00’), Timedelta(‘0 days 00:08:15’), Timedelta(‘0 days 00:08:30’), Timedelta(‘0 days 00:08:45’)]

h: 在这里插入图片描述因为每四个斜率作为五个点中最左边点的斜率指标，所以前四个点是没有斜率指标的

最后得出结果是4分钟作为阈值：在这里插入图片描述所以这里实际的实践过程应该是：先判断阈值，然后根据这个阈值，去对事件进行划分，然后得出哪些是用水事件

属性构造 由于我们现在要知道的是哪些事件是洗浴时间，所以我们不但要分辨出那些事用水事件，还要分离出这些事件里面的洗浴时间，这就需要再构造一些属性：用水时长，用水量，水温

洗浴事件的特征：温度设定越高，水就越烫，兑的冷水多，热书使用就少，所以X与Y成反比的

根据热量守恒守恒，得到： Y = (50 - C)*V/(X - C)

模型构建 这里假设已经将加上的一些属性计算好，并且已经添加到表格中了，现在对表格中数据进行训练：

    from __future__ import print_function
    import pandas as pd
    
    inputfile1='train_neural_network_data.xls' #训练数据
    inputfile2='test_neural_network_data.xls' #测试数据
    testoutputfile = 'test_output_data5.xls' #测试数据模型输出文件
    data_train = pd.read_excel(inputfile1) #读入训练数据(由日志标记事件是否为洗浴)
    data_test = pd.read_excel(inputfile2) #读入测试数据(由日志标记事件是否为洗浴)

在这里插入图片描述我们发现训练数据有28条，测试数据有21条，每条数据有16个属性，但是只有其中十一个属性是有意义的（是否为洗浴事件后面的11条），故选取十一个特征属性，将数据整理成x_train,y_train,x_test,y_test:

    y_train = data_train.iloc[:,4].values #训练样本标签列
    x_train = data_train.iloc[:,5:17].values #训练样本特征
    y_test = data_test.iloc[:,4].values #测试样本标签列
    x_test = data_test.iloc[:,5:17].values #测试样本特征

在这里插入图片描述建立神经网络模型，这里对神经网络进行参数寻优，找到两层隐层神经网络比较好，并且两层隐层分别为17,10个节点，效果明显，好，就这么办：

建立模型

    from keras.models import Sequential
    from keras.layers.core import Dense, Dropout, Activation
    
    model = Sequential() #建立模型
    model.add(Dense(input_dim=11, output_dim=17)) #添加输入层、隐藏层的连接
    model.add(Activation('relu')) #以Relu函数为激活函数
    model.add(Dense(input_dim=17, output_dim=10)) #添加隐藏层、隐藏层的连接
    model.add(Activation('relu')) #以Relu函数为激活函数
    model.add(Dense(input_dim=10, output_dim=1)) #添加隐藏层、输出层的连接
    model.add(Activation('sigmoid')) #以sigmoid函数为激活函数
    #编译模型，损失函数为binary_crossentropy，用adam法求解
    model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

训练模型

    model.fit(x_train, y_train, nb_epoch = 100, batch_size = 1) #训练模型
    model.save_weights('net.model') #保存模型参数

预测模型：

    r = pd.DataFrame(model.predict_classes(x_test), columns = [u'预测结果'])
    pd.concat([data_test.iloc[:,:5], r], axis = 1).to_excel(testoutputfile)
    model.predict(x_test)

在这里插入图片描述训练了100次：保存了训练效果较好的一次结果模型其实中间有的时候训练精度可能只有0.2几，这是因为训练数据太少的缘故，训练数据多一些，应该可以提升一下训练模型的精度

marraybug

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
《数据分析与挖掘第十章家用电器用户行为分析与事件识别》

家用电器用户行为分析与事件识别数据抽取首先对原始数据采用无放回的随机抽取数据预处理热水器编号对实验无实际性的意义，这个属性特征是可以删除的有无水流可以用水流量来表示，因此这个属性是没有必要的节能模式是一种模式，所有数据都是一样的，因此也是可以删去的属性删去三种属性之后，留下九种属性又，热水器“开关状态”为关的时候，“水流量”为0时，说明热水器不工作，此条数据是可以删除的数据变化除了筛选出这九个属性之外我们还要知道每次使用水的行为，要区分几次流水的情况，是属于同一次用水行为，还是
复制链接

扫一扫