hadoop思想起源和基础认识

HDFS:分布式文件系统
Pig:数据分析工具
Hbase:列式数据库
HIVE:sql语言到mapreduce转换器,运行在hadoop基础上的类似数据库的软件

环境:服务器:esxi
虚拟机:vmWare
ssh:windows平台用cygwin,linux可以直接使用
hadoop版本之间差异比较大,学习时应当用旧版本较好

hadoop的思想来源:google:搜索引擎、安卓,谷歌地图、谷歌地球、谷歌学术、appspot谷歌api(以前的翻墙软件基于这个应用)
google的低成本之道:
不使用超级计算机,不使用存储,大量使用普通的pc服务器,提供有冗余的集群服务
全世界多个数据中心,有些附带发电厂
运营商向google倒付费
1.在oracle中模糊查询like的话,会影响运行速度,但是在搜索的过程中却只用了很短的时间。
2.网页价值的计算,page-rank页面价值排行
原理:倒排索引
举例:一个网页为  "我爱北京天安门"
事先为每个网页建立一个倒叙索引,对相关关键字进行排序,从而在搜索的时候直接寻找对饮关键字最多的网页
page rank成就了google今天的成就

Map-reduce思想,思想为:将一个巨大的矩阵节点分布式处理,利用节点的积成效应对大数据完不成的事情通过分布式服务器得已处理
google带来的思想:
GFS:节点添加冗余,放置失败
map-reduce:通过分布式节点,让数据计算机制大大减少容量限制
bigtable:hbase是bigtable的山寨版
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值