数据挖掘就是从海量的数据中挖掘出有价值信息的技术,应用一系列技术从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其工作过程包括数据整合、建立模型、挖掘和知识分析。数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据,甚至是分布在电力调度各类业务间的异构型数据。提取的知识表示为概念、规则、模式等形式。
数据挖掘技术在处理电力调度海量数据和挖掘深层次信息方面有着很大的优势,针对电力调度业务需求,可以采用数据挖掘中发现知识的预测模型、多维分析模型、关联分析模型等方法构建挖掘模型,实现知识提取。
数据挖掘技术
Clustering(分组)- Demographic(人口统计学)和Neural(神经元)
例如按照人口信息划分人群,按照电压等级划分电网分析对象
Classification(分类) - 树归纳和神经元归纳
例如“购买昂贵的跑车的人多为年轻的居住在郊区的专业人士,而购买豪华私人轿车的人多为富裕的老年人。”
Value Prediction(数值预测)
例如预测信用欺诈的可能性,电网用电量预测
Association Discovery(关联发现)
例如“购买了奶的顾客,55%会购买其他奶制品,42%会购买面包。”
Sequential Pattern Discovery(相关序列发现)
例如“申请支票帐户同时申请ATM卡的客户,42%会在90天内申请赊购帐户。”
Similar Time Sequence Discovery(时间序列发现)
例如“给出2005年XXX股票每天收盘价,找出具有相同行为的其他股票。”
数据挖掘方法论
数据挖掘一般可以包含以下步骤:
1. 精确定义商业问题,分析市场需求
2. 定义数据模型和数据信息要求
3. 准备数据(找出所有可以提供数据的数据源,无论是关系型的、文本的、存储在数据仓库中的,或购买第三方的,需要进行整合、清洗、过滤)。
4. 评价和测试数据质量。
5. 选择适合的挖掘技术,运行挖掘程序。
6. 解释结果,检测新信息。
7. 将结果和新知识应用于业务中。
需要的技能
如果想要成功实施数据挖掘项目,需要如下技能:
1. 数据操作能力
2. 了解挖掘技术
3. 行业知识或者能够与行业专家交流
4. 创新精神
一般来说一个人很难同时具备以上所有技能,只能组成一个团队来满足:
1. 市场分析员:行业方面人士
2. IT分析员:熟悉行业数据管理流程
3. 数据工程组:熟悉挖掘技术
4. 商业用户:从业务的角度检察挖掘的应用和实施。
5. 项目组织者:用户单位的领导人,协调和帮助解决问题。
本人与朋友编写的研究论文:
题名 | 来源 | 发表时间 | 被引 | 下载 |
2011-03-25 | 220 | |||
2009-10-15 | 496 | |||
电力系统装备 | 2011-7-5 | 3 | 155 | |
2013-10-15 | 1 | 16 |