大数据
Aabin⁶⁶⁶
不负诗书不负剑,不负如来不负卿!
展开
-
Apache Hadoop
Author: LijbEmail: lijb1121@163.comWeChat: ljb1121大数据(bigData)数据量级大,处理GB/TB/PB级别数据(存储、分析)时效性,需要在一定的时间范围内计算出结果(几个小时以内)数据多维度(多样性),存在形式:传感器采集信息、web运行日志、用户的行为数据。数据可疑性,数据要有价值。需要对采集的数据做数据清洗、降噪大数据解...原创 2019-06-27 22:59:19 · 372 阅读 · 0 评论 -
Apache Hive
Author: LijbEmail: lijb1121@163.comWeChat: ljb1121Hive介绍: hive是基于Hadoop的一个数据仓库工具,可以用来进行数据踢群转换加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据机制。可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行...原创 2019-06-28 20:31:41 · 588 阅读 · 0 评论 -
Apache Hbase
Author: LijbEamil: lijb1121@163.comWeChat: ljb1121HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类...原创 2019-06-28 21:09:55 · 331 阅读 · 0 评论 -
Apache Spark
Author: LijbEmail: lijb1121@163.comWeChat: ljb1121Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯 克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。,Spark拥有Hadoop MapReduce所具 有的优点;但不同于...原创 2019-06-30 00:30:37 · 1663 阅读 · 0 评论