学习大数据技术,首先要明确大数据的概念。
大数据的概念作者认为有如下几点:
1.数据的来源多样性。例如关系数据库+文本+excel等
2.数据量大。TB级别的数据。
3.业务应用领域。实时性高与实时性不高的应用。
学习大数据应该就是要解决上述三个技术问题。
针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种数据库,每个数据库有很多节点等,这些问题如何解决。第二是时间问题,如果这个ETL过长需要半个月时间,那么就没有意义的。
针对第二个问题,数据如何存储,如何查询。TB级的数据如何存储,如何查询,面对亿级别的数据集合,如何提升查询速度。
针对第三个问题,实时分析系统和非实时分析系统。实时分析系统我们如何解决在海量的数据中,及时根据数据分析模型,得出分析报告。非实时系统我们技术要求可能会低些。
围绕解决上述问题为中心,进行探讨学习之路-称为大数据学习之路
以上及供参考,欢迎评论交流探讨。