关闭

一个开始

标签: hadoop数据
94人阅读 评论(0) 收藏 举报
分类:

知识就是力量,在我们这个信息爆炸的时代,知识可以认为就是数据。
各行各业的数据都在爆炸式的增长,这个量变已经使我们无法轻松的使用数据了。随之而来的就是大数据领域的解决方案。
hadoop作为一个开源的技术正在被更多的人使用,已经形成一套标准。
hadoop.apache
目标:通过学习,能够完成一定的大数据解决方案

目前hadoop已经形成了一个庞大的家族,相关产品还有如下:
这里写图片描述
个人理解:
hadoop:一个开源的分布式计算框架,主要包含一个分布式文件系统(hdfs)和一个数据分治合并计算框架(mapreduce),基于文件的计算
hive:将文件映射为一个类似数据仓库的东西,能够使用sql做查询统计分析
hbase:高可靠性,高性能,面向列的,分布式的存储系统。能够存储大规模的结构化数据
sqoop:一个转换工具,将关系型的数据(mysql,Oracle。。)导进hdfs,或者从hdfs导进关系型数据库
zookeeper:不好说,起到管理协调数据的作用
pig:可以将类似sql的查询转换并优化为mapreduce的计算

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:587次
    • 积分:81
    • 等级:
    • 排名:千里之外
    • 原创:8篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章分类