通用过程
- 业务建模:把业务问题理解透,理解项目目标和需求,将目标转换成问题定义,设计出达到目标的一个初步计划。根据直觉和知识提出合理假说,如类比相关性等。难点:在于如何设计合理的目标函数,使得能够达到业务初始设计要求。
- 收集数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。要有数据,而且的确需要足够多的数据。难点:1.如何解决数据收集成本大的问题,或者说如何自动化收集数据。需要收集多少数据才够,学术界尚未有固定的理论指导,正在从成功案例中提炼经验公式。
- 准备数据:提升数据质量,将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换(稀疏,异构)和数据清理(缺失,矛盾)等。难点:对于优质数据的判断标准,待分析。
- 建模分析:选择和应用各种建模技术,并对其参数进行优化。一般的,为了模拟未知数据的表现,常常把数据集分为两个部分,