- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 yarn学习笔记
一、什么是yarn? yarn(yet another resource negotiator)是hadoop的集群资源管理系统。它是在hadoop2时被引入,最初是为了改善mapreduce的实现,由于其具备较高的通用性,可以支持多种分布式计算模式,如mapreduce、spark和Tez等。yarn为这些计算模式提供了使用集群资源的API。二、yarn的核心成员 1、resourc...
2018-05-22 20:06:04 199
原创 HDFS学习笔记
HDFS:hadoop分布式文件系统设计:1、针对超大文件,至少百兆2、流式数据访问,一次写入,多次读取3、商用硬件,普通电脑,可能出现故障不适宜:1、低时间延迟,即快速响应,HBase更合适2、大量的小文件3、多用户写入,HDFS的文件只有能一个writer,写操作总添加在文件末尾概念:1、数据块:一般的磁盘:512K,HDFS:64M(128M),HDFS上的文件被划分成了块大小的多个分块(c...
2018-05-14 22:22:43 265
原创 hadoop2.7.6伪分布模式配置
1、在hadoop-2.7.6/目录下创建hadoop需要的临时目录:mkdir hadoop-2.7.6/tmp #for hadoop.tmp.dirmkdir hadoop-2.7.6/tmpdir #for mapred.local.dir2、在hadoop-2.7.6/etc/hadoop目录下修改如下配置文件内容(如果没有配置文件,自己创建一个即可):2.1、core-site.x...
2018-05-14 14:46:55 855
原创 hive数据库概念和基本操作
hive数据库:概念:hive中的数据库本质上仅仅是表的一个目录或命名空间。对于具有很多用户和组的大集群而言,这种方式可以避免表的命名冲突。通常会使用数据库来将生产表组织成逻辑组。示例:本地模式配置了数据库的统一存放目录为~/hive/warehouse,那么创建的所有数据库都存在该目录下,以.db结尾:learn_hadoop@linux-hr0n:~> ls ~/hive/warehou...
2018-05-03 15:56:14 2002
Getting Started With MachineLearning
2018-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人