1、什么是数据挖掘?
从大型数据库中提取有趣的(非平凡的、蕴含的、先前未知的且是潜在有用的)信息或模式。
2、什么是BI(Business Intelligence商务智能)?
企业利用信息科技以企业内部及外部既有的数据库数据为基础,根据所需解决的问题进行数据汇总,整合成数据仓库后,利用适当的工具进行数据处理,利用联机分析及数据挖掘等技术分析数据,将所发现的潜在特性或是建立的预测模型传递给决策者,以提供协助其进行决策,并达到企业目标。
3、BI的三大核心技术?
DW数据仓库:是前提和基础,负责统一数据规则的处理和存储。知识发现(KDD)的核心
OLAP联机分析处理:是操作,侧重显性知识的处理和分析,与用户的交互,快速响应及提供数据的多维视图。
DM数据挖掘:是发现,侧重隐性知识发掘和利用,发现隐藏在数据中的模式和有用信息。
4、数据挖掘的应用?
数据库分析和决策支持
– 市场分析和管理:针对销售(target marketing), 顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation)
– 风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析
– 欺骗检测与管理
其它应用
– 文本挖掘(新闻组、email、文档资料)
– 流数据挖掘(Stream data mining)
– Web挖掘
– DNA 数据分析
5、数据挖掘的步骤过程?
6、KDD的基本步骤?
• 学习应用领域
– 相关的先验知识和应用的目标
• 创建目标数据集:数据选择
• 数据清理和预处理(可能占全部工作的 60%!)
• 数据归约与变换
– 发现有用的特征,维/变量归约,不变量的表示
• 选择数据挖掘函数
– 汇总,分类,回归,关联,聚类
• 选择挖掘算法
• 数据挖掘:搜索有趣的模式
• 模式评估和知识表示
– 可视化,变换,删除冗余模式,等
• 发现知识的使用
7、数据挖掘的典型系统结构?
8、数据挖掘在什么数据上进行?
• 平面文件
• 关系数据库
– 包括面向对象和对象-关系数据库
• 事务(交易)数据库
• 异种数据库和遗产数据库
• 数据仓库
• 多媒体数据库、空间数据库、时间序列数据库、文本数据库
9、数据挖掘的功能?
概化,汇总,比较数据特征
关联 (相关和因果关系)
分类和预测,找出描述和识别类或概念的模型(函数),用于将来的预测,预测某些未知或遗漏的数值
聚类分析:聚类原则:最大化类内的相似性,最小化类间的相似性
孤立点(Outlier)分析:孤立点:一个数据对象,与数据的一般行为不一致,孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的
趋势和演变分析
其它基于模式或统计的分析
10、Web挖掘?
Web Usage Mining是在Web数据存储地中应用数据挖掘技术抽取使用模式的方法
11、文本挖掘?
数据挖掘应用于文本存储地+基本语言学