数据挖掘这一大领域的感想

最新推荐文章于 2023-03-29 13:53:19 发布

Tiffany_Li2015

最新推荐文章于 2023-03-29 13:53:19 发布

阅读量2.6k

点赞数

分类专栏：数学基础及杂文

数学基础及杂文专栏收录该内容

9 篇文章 0 订阅

订阅专栏

转自http://blogs.baomitec.com/2015/05/08/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E7%9A%84%E4%B8%80%E7%82%B9%E6%84%9F%E6%83%B3/

在数据挖掘领域，的确是一小撮人在看一大堆人在裸奔，而那一小撮人都在互相看对方裸奔，所以，将来物物互联的社会，这个必定是一个趋势也必将会成为现实。数据挖掘兴起于上世纪90年代，首先做的是沃尔玛，慢慢的被挖掘发现，成为了一门兴盛的学科。正是由于该学科的产生以及要解决问题的特殊性，数据挖掘不仅仅要求的是技术，还要有一定的领域知识。首先认清楚一个领域存在的问题，其次如何将这个问题进行描述，再进一步如何将其描述成数学问题，接着是否可以有一定的数据供你研究，并根据数据集问题构建一定的模型，最后是能否真正的解决该问题。这就是数据挖掘的基本流程。所以，数据挖掘不仅仅是一门科学，而且是一种指导解决问题的思路。目前流行的而且最稀缺的是跨界人才，跨界就等于价值。上述流程里面就可以清楚的看到，面对一个问题，技术仅仅是解决问题的手段，而真正需要的是如何对问题进行描述。

现在大致说一下数据挖掘的基本方法，面对一个完全陌生的数据，要去了解它，熟悉它的属性，知道它的内涵，明白它的分布，质量怎么样等等，然后在以上基础上，需要做一些特征工程，如特征提取，主成分分析，聚类等等，再接着就是对其进行数据的选择，就是选择和主体最相关的数据，我们不能拿肺结核的数据来分析心脏病，数据要有针对性，特定问题需要特定的数据进行支撑，虽然有时候，面对一个完全陌生的数据，我们无法判断哪些数据和我们真正的相关，那么就只能构建一些能够有效的或者比较松弛的模型，来容忍这些和主题不相关的噪声点。最后就是针对已有的问题以及处理好的数据进行模型构建，验证并解决模型。

以上是数据挖掘过程中的一般流程，但是一般特定问题特定分析，熊老师一直在强调不要一上来就去套模型，先分析问题，这也是以前自己犯的错误，面对问题不要一味的追求模型的复杂性，要用的合理，合理就是做好的。

接下来是对大数据下的预测模型，以前对预测类的问题理解不是很清楚，这次借着熊老师的思想，大概有一个比较成熟的思想，但是也是比较基本的，所有预测类问题可以由以下式子说明：a+h*b

其中a是基于大量数据的基本事实，即历史数据，历史的数据量越大，其值就越稳定，而b则是即时事件，也就是突发情况，具有多样性、复杂性以及即时性等，这往往和具体的环境因素有关，而h则是参数，要把预测做好，最重要的就是解决b，如何在历史数据的情况下，对b有一个更全面的认识，但是a也是非常重要的。以前对预测的理解是，在大量的历史数据里面，寻找数据的特征，也即找到最合适的a，却没有考虑到当前的突发情况b，这样的预测，往往没有很好地普适性，因此，对显示即时事件的建模，也是非常重要的，当然也是很难的。

当然，今天的收获还有很多，人生就是数据挖掘，生活中的方方面面都牵扯到数据挖掘，如果找到很好的方法，也许对自己的生活会有一个新的认识。

Tiffany_Li2015

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘这一大领域的感想

转自http://blogs.baomitec.com/2015/05/08/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E7%9A%84%E4%B8%80%E7%82%B9%E6%84%9F%E6%83%B3/在数据挖掘领域，的确是一小撮人在看一大堆人在裸奔，而那一小撮人都在互相看对方裸奔，所以，将来物物互联的社会，这个必定是一个趋势也必将会成为
复制链接

扫一扫