数据挖掘可以做什么不可以做什么?
数据挖掘是一个强大的工具,可以帮助你找到数据中的模式和关系。但是数据挖掘自己本身不会工作,它还是需要了解你的业务、你的数据和懂得一些分析方法。数据挖掘可以发现数据中的一些隐藏的信息,但是它无法告诉你所在的企业这些数据的价值。
通过你自己一段时间的工作,你可能已经意识到了一些重要的模式。数据挖掘不仅可以证实这些经验性的结论,而且可以发现一些凭简单观察无法辨识出的新结论。
谨记通过数据挖掘得到的预测关系并不是因果关系。例如,数据挖掘可能会认为一些订阅了特定杂志的收入在50000-60000美元的男性很可能购买某一产品。你可以利用这些信息去帮自己制定市场销售策略。但是,你不应该认为因为他们属于数据挖掘得出的那部分人群,所以他们就应该购买这一产品。
提出正确的问题
如果没有指导,数据挖掘不会自动的发现信息。你通过数据挖掘找出的模式之间有多大的不同绝大多数都取决于你最初如何制定这个问题。
想要获取有意义的结果,你必须要学会制定正确的问题。例如,与其去探索“如何得到邮件直接邀请募捐的回应”,不如去寻找这些人过去在回复你的邮件邀请募捐时有哪些特点。
懂得你的数据
为了确保有意义的数据挖掘结果,你必须懂得你的数据。数据挖掘算法对于数据的特定特点往往非常敏感:异常值(即一些与数据库中典型数据非常不同的数据),不相关的字段,一些一起变化的字段(例如年龄和出生日期),数据编码,和那些你选择了或排除了的数据。
Oracle 数据挖掘工具可以按照大部分算法的要求准备好数据。但是一些准备出来的数据通常特定于某个域或数据挖掘问题。无论如何,为了适当的解释当模型应用后产生的结果,你必须懂得那些将被用来构建模型的数据。