数据仓库的特点:
- 面向主题
- 集成
- 相对稳定
- 反映历史变化
ETL抽取过程:
- 抽取
- 转换
- 加载
建立数据仓库的步骤:
- 收集和分析业务需求
- 建立数据模型和数据仓库的物理设计
- 定义数据源
- 选择数据仓库技术和平台
- 从操作型数据库中抽取,清洗及转换数据到数据仓库
- 选择访问和报表工具,选择数据库连接软件,选择数据分析和数据展示软件
- 更新数据仓库
自动摘要:
- 主题摘要
- 信息摘要
- 纲目摘要
- 摘录型摘要
- 评论型摘要
WEB挖掘
- WEB内容挖掘
- 文本挖掘
- 多媒体挖掘
- WEB结构挖掘
- 超链接挖掘
- 页面结构挖掘
- WEB使用挖掘
- 用户访问模式挖掘
- 分析定制WEB站点
神经网络
- 计算总体误差对于每个参数的有序倒数公式(函数)
- 任意选择一组数据作为初始参数
- 根据当前参数计算总体误差
- 计算各参数的增量,并计算调整后的参数大小,把调整后的参数作为当前参数
ID3:
信息增益的缺点是倾向于取值较多的属性
只能对描述属性为离散型属性的数据集构造决策树
支持度≥SUP(min)的项集称为频繁项集。
如果L2 = { {A,B},{A,C},{B,C},{B,D},{A,D} };
则连接产生的C3 = abc ,adb,acd ,bcd //子集没有cd,去掉CD
修剪C3 = ABC ABD