![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
yunqiublog
这个作者很懒,什么都没留下…
展开
-
HDFS知识点
HDFS最近学习总结 一. hdfs整体运行机制: 客户把一个文件存入HDFS中,其实HDFS会把文件切成块进行存储,会分散存储到N台Linux系统中(存储文件块的角色是:datanode)(重要的是切块的行为是由客户端决定的) 一旦文件被切块切块存储,HDFS一定要有个机制,需要记录每一个文件的切块信息和每个切块具体的存储机器。(记录块信息的是namenode) 需要保证数据的安全性...原创 2019-02-12 18:27:21 · 263 阅读 · 0 评论 -
MapReduce知识点总结
一.nodemanager配置问题 资源总量cpu core 8 内存8g 这个是默认的可以进行更改,这是资源上限 真是内存只有2G,你启动容器的时候,可能会起不来,内存不足,会出现问题,如果你把内存配成1个G你真实内存只有 2G,去掉机器占的,你启动mr程序会报错,因为你开辟的空间不够。mrappmaster默认最小参数是1.5G所以启动的时候 可能报错,启动不起来。nodemanager...原创 2019-02-13 10:03:58 · 695 阅读 · 0 评论 -
hive知识点
hive的基本思想 hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 hadoop处理结构化数据的数据仓库 不是关系型数据库,不适合OLTP在线事务处理,例如银行 不适合实时查询和行级更新。 总结:hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析 Hive的特点 可扩展 Hive...原创 2019-02-14 09:09:08 · 157 阅读 · 0 评论