一、大数据和机器学习的基本概念,历史渊源。综述当前大数据和机器学习应用领域。我的判断是,这两个概念现在已经不是出炒作,已经走向实用领域。
大数据这个概念兴起,我感觉是在2012年。这一年,大数据这个概念在计算机这个领域经常被提取。普通的媒体也开始常常有报道,当然普通媒体对大数据这个概念并没有什么实质性了解,他们只是在炒一些大数据表面含义,例如大数据就是大量的数据,究竟多大量数据就是大数据,我想当时的媒体多是答不上来,就算是现在,我想他们也是答不上来的。或者有些媒体留意到计算机领域一些引用到的观点,就是说几百个G的数据量就可以称为大数据。其实这是对大数据概念非常肤浅的理解。我认为大数据更重要的是指大量数据时,系统的处理方法和数据应用能力。这才是大数据核心的价值所在。
大数据处理的技术早就在技术先锋的公司得到广泛的应用,例如Google 搜索引擎。现在广泛使用到的大数据技术,就是开源社区从Google在2004年发表的GFS论文,实现论文中的大数据存储和处理技术。大数据概念兴起,这和另外一项技术在大量数据处理能力有关,这项技术就是关系型数据库。因为关系型数据库在面对大量数据时,由于本身技术架构和理论,在处理大量数据时显得力不从心,例如在几十亿笔交易记录里求平均值(在这里不讨论抽样方式,抽样在很多场景也不适合)。因为现在每天,都有很多场合会产生大量要记录的内容(进一步描述)。所以就要有新的技术来处理这种情况。这就是大数据技术诞生的背景。
其实在08-12年左右,像电信公司这样的企业,每天用户产生的数据量就很大。我参加一个技术会议了解到的,像广州和佛山的移动公司,每天他们的业务系统生产数据,就是上百个G,在12年-15年左右,多数的传统企业,他们的信息部门有认识到大数据重要性,由于对大数据处理技术和数据应用能力有限 ,多半是做数据收集,看着硬盘的数据在膨胀。由于数据应用能力不强,所以数据收集方向也不大明确,这些企业信息部门只有尽可能的收集存储数据,等到以后有条件了,再进行数据处理和分析。这些场景算是比较好的,比较糟糕的情况,连收集数据意识也没有。
下面进行