从大数据时代开启的第一天起,我们的生活注定被数据灌满了。这是一个人人都需要隐私但又不懂得在乎和保护隐私的时代,几乎所有人都在发布数据,把它们挂在网上或传播到公共平台。人们既向外发散,又向内吸收,自觉或不自觉地收集各种各样的数据信息。——《大数据在中国》
在与很多不了解大数据的朋友交流时,果金老师往往会被问到一个问题,那就是大数据究竟是做什么的?事实上,经过了十多年的发展,大数据相关技术的应用已经渗透到了我们工作生活和学习中的各个方面了,往往有很多我们没有意识到的产品或服务,其背后都是经由大数据相关技术产品的辅助下,得以实现的。下面看看怎么入门大数据
第一章 大数据概述
1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;
2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;
3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;
4、掌握Hive数据仓库工具的工作原理及应用开发。
大数据的4V特征:
大数据解决的问题:
1.4大数据涉及到的技术
数据采集、数据存储、数据处理/分析/挖掘、可视化
1.5大数据带来的挑战
对现有数据库管理技术的挑战
经典数据库并没有考虑数据的多类别
实时性的技术挑战
网络架构、数据中心、运维的挑战
其他挑战:数据隐私、数据源的复杂多样等
1.6 挑战之如何对大数据进行存储和分析
系统瓶颈:存储容量、读写速度、计算效率
Google大数据技术:GFS、BigTable、MapReduce
1.7如何学好大数据
查找官网、英文
项目实战融会贯通
参加社区活动
多动手、多练习、坚持
想要在大数据这个领域汲取养分,让自己壮大成长。分享方向,欢迎想学习,想转行的,进阶中你加入学习。关注我可以找到组织
Spark综合项目:
介绍:该项目使用了Spark SQL和Spark Streaming对游戏整个生命周期产生的数据进行了分析,从玩家第一次登录游戏到每天产生的游戏日志,通过大量的数据来分析该游戏的运营情况和玩家的各种行为:如活跃用户、用户留存、充值比例、游戏收人、外挂分析等。