一、数据挖掘过程
weka只是整个数据挖掘的一小部分,最简单的部分,实践中,其他的部分会难得多。
“希望你所有的问题都是技术问题,其他问题是在整个数据挖掘过程中艰巨得多的。”
二、数据挖掘失误和缺陷
数据残缺是数据挖掘中常见的情况,可以通过weka的edit将数据设为missing。
三、数据挖掘和道德规范
一个和数据挖掘有关的道德问题是相关性并不意味着因果关系。
如冰淇淋的销售和溺水率同时增长,并不能说冰淇淋的消费导致溺水。
数据挖掘显示的是简单的相关性,不是因果关系。
四、课程总结
数据挖掘中没有魔法,数据挖掘包括很多不同的方法,他们都是非常直接的算法。
数据记录下来的是事实,是世界的变化,是数据挖掘的输入值,输出值是信息,是基于数据的模式。