本案例又是一个LM模型的应用。不过比较精彩的部分是时间序列数据的处理操作,进行的数据规约和特征提取部分。书中的代码除了贯序模型中一个错误外,其他并没有发现错误。不过因为本身对于时间序列的操作不是太熟悉,所以基本上就是跟着书中的代码走了一遍。
- 挖掘目标
1.1 根据热水器采集到的数据,划分一次完整的用水事件。
1.2 在划分好的一次完整的用水事件中,识别出洗浴事件。 - 分析方法和过程
2.1 对热水用户的历史用水数据进行选择性抽取,构建专家样本。
2.2 对步骤1形成的数据集进行数据探索与预处理。包括探索用水时间时间间隔的分布,规约冗余属性、识别用水数据的缺失值,并对缺失值进行处理,根据建模的需要进行属性构造等。
2.3 在步骤2的建模样数据基础上,建立洗浴事件识别模型,对洗浴事件识别模型进行分析评价。
2.4 对步骤3形成的模型结果应用并对洗浴事件划分进行优化。
2.5 调用洗浴时间识别模型,对实时监控的热水器流水数据进行洗浴时间自动识别。 - 数据预处理
在数据预处理中,我认为书中的提供的数据和描述有所不同。
在208页中,第3行中:
数据规约:当热水器“开关机状态”为关且水流量为0是,说明热水器不处于工作状态,数据记录可以规约掉。
而在water_heater.xls文件中提供的数据,明显是不满足要求的。如下图所示: