数据挖掘这一大领域的感想

转自http://blogs.baomitec.com/2015/05/08/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E7%9A%84%E4%B8%80%E7%82%B9%E6%84%9F%E6%83%B3/


在数据挖掘领域,的确是一小撮人在看一大堆人在裸奔,而那一小撮人都在互相看对方裸奔,所以,将来物物互联的社会,这个必定是一个趋势也必将会成为现实。数据挖掘兴起于上世纪90年代,首先做的是沃尔玛,慢慢的被挖掘发现,成为了一门兴盛的学科。正是由于该学科的产生以及要解决问题的特殊性,数据挖掘不仅仅要求的是技术,还要有一定的领域知识。首先认清楚一个领域存在的问题,其次如何将这个问题进行描述,再进一步如何将其描述成数学问题,接着是否可以有一定的数据供你研究,并根据数据集问题构建一定的模型,最后是能否真正的解决该问题。这就是数据挖掘的基本流程。所以,数据挖掘不仅仅是一门科学,而且是一种指导解决问题的思路。目前流行的而且最稀缺的是跨界人才,跨界就等于价值。上述流程里面就可以清楚的看到,面对一个问题,技术仅仅是解决问题的手段,而真正需要的是如何对问题进行描述。

现在大致说一下数据挖掘的基本方法,面对一个完全陌生的数据,要去了解它,熟悉它的属性,知道它的内涵,明白它的分布,质量怎么样等等,然后在以上基础上,需要做一些特征工程,如特征提取,主成分分析,聚类等等,再接着就是对其进行数据的选择,就是选择和主体最相关的数据,我们不能拿肺结核的数据来分析心脏病,数据要有针对性,特定问题需要特定的数据进行支撑,虽然有时候,面对一个完全陌生的数据,我们无法判断哪些数据和我们真正的相关,那么就只能构建一些能够有效的或者比较松弛的模型,来容忍这些和主题不相关的噪声点。最后就是针对已有的问题以及处理好的数据进行模型构建,验证并解决模型。

以上是数据挖掘过程中的一般流程,但是一般特定问题特定分析,熊老师一直在强调不要一上来就去套模型,先分析问题,这也是以前自己犯的错误,面对问题不要一味的追求模型的复杂性,要用的合理,合理就是做好的。

接下来是对大数据下的预测模型,以前对预测类的问题理解不是很清楚,这次借着熊老师的思想,大概有一个比较成熟的思想,但是也是比较基本的,所有预测类问题可以由以下式子说明:a+h*b

其中a是基于大量数据的基本事实,即历史数据,历史的数据量越大,其值就越稳定,而b则是即时事件,也就是突发情况,具有多样性、复杂性以及即时性等,这往往和具体的环境因素有关,而h则是参数,要把预测做好,最重要的就是解决b,如何在历史数据的情况下,对b有一个更全面的认识,但是a也是非常重要的。以前对预测的理解是,在大量的历史数据里面,寻找数据的特征,也即找到最合适的a,却没有考虑到当前的突发情况b,这样的预测,往往没有很好地普适性,因此,对显示即时事件的建模,也是非常重要的,当然也是很难的。

当然,今天的收获还有很多,人生就是数据挖掘,生活中的方方面面都牵扯到数据挖掘,如果找到很好的方法,也许对自己的生活会有一个新的认识。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值