前段时间做了一个小小的调查,想知道热爱大数据的人们都想了解哪些有关的知识,其中一位热爱者回复说:“他想了解大数据实际的案例应用,和如何正确学习大数据。”今天小编就简单的说一下如何学习大数据技术。
我们都知道想要学习做好一件事情,首先你得了解它,学习大数据也不例外,想要学习大数据技术,首先要明确大数据的概念。对于大数据概念小编认为有如下几点:
1、数据的来源多样性。例如关系数据库+文本+excel等
2、.数据量大。TB级别的数据。
3、业务应用领域。实时性高与实时性不高的应用。
学习大数据不仅仅要明确大数据的概念,更重要的是要解决上述三个技术性的问题。
针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种数据库,每个数据库有很多节点等,这些问题如何解决。第二是时间问题,如果这个ETL过长需要半个月时间,那么就没有意义的。
针对第二个问题,数据如何存储,如何查询。TB级的数据如何存储,如何查询,面对亿级别的数据集合,如何提升查询速度。
针对第三个问题,实时分析系统和非实时分析系统。实时分析系统我们如何解决在海量的数据中,及时根据数据分析模型,得出分析报告。非实时系统我们技术要求可能会低些。
围绕解决上述问题为中心,进行探讨学习即可。