大数据基本概念
用新的技术进行海量数据处理
简言之,大数据:
1.有海量的数据
2.有对海量数据进行挖掘的需求
3.有对海量数据进行挖掘的软件工具(Hadoop、spark、storm、flink、tez、impala....)
处理海量数据的核心技术
分布式
—— 海量数据存储、海量数据运算
存储框架
1.HDFS——分布式文件存储系统(Hadoop中的存储框架)
补充:数据库系统就是在文件系统上封装一层
2.HBase——分布式数据库系统
3.KAFKA——分布式消息缓存系统(消息有固定的格式)
补充:KAFKA应用在实时流式数据处理场景中
运算框架
解决的核心问题是将处理逻辑在很多机器上并行(分布式)
1.MAPREDUCE——Hadoop中的运算框架(离线批处理)
2.SPARK——离线批处理/实时流式计算
3.STORM——实时流式计算
补充:HDFS、HBASE、KAFKA通过访问接口也可在spark中使用
辅助类工具
1.FLUME——数据采集
2.SQOOP——数据迁移
3.HIVE——数据仓库工具(可接收sql,翻译成mapreduce或spark程序运行)
应用
1.公司产品运营分析
2.电商推荐系统
3.精准广告推送系统