hadoop学习笔记
飞花落雨
这个作者很懒,什么都没留下…
展开
-
第02讲:Hadoop 发行版选型和伪分布式平台的构建 2020/05/02 高俊峰(南非蚂蚁)
本课时主要介绍 Hadoop 发行版选型以及伪分布式平台的构建。Hadoop 发行版介绍与选择到目前为止,你应该初步了解了大数据以及 Hadoop 相关的概念了。本课时我将介绍 Hadoop 如何快速使用,由于 Hadoop 平台的构建过程相当复杂,它涉及系统、网络、存储、配置与调优,但为了能让你尽快尝鲜体验一下 Hadoop 的功能和特性,我们先一起构建一个伪分布式 Hadoop 集群,也就是一个假的 Hadoop 集群,麻雀虽小,但五脏俱全。伪分布式 Hadoop 集群能够实现 Hadoop原创 2020-07-10 12:17:20 · 310 阅读 · 0 评论 -
第01讲:大话 Hadoop 生态圈 2020/04/28 高俊峰(南非蚂蚁)
所谓大数据是相对于小数据、传统数据来说的,大数据要解决的就是大规模数据存储、大规模数据计算、大规模数据处理,而 Hadoop 生态系统就是用来实现这些功能的。要讲清大数据的原理,我们还要从一个故事讲起。从故事开始:一个电商平台的用户行为分析需求最近,就职于一家电商公司的小李遇到了一些麻烦事,因为领导突然给他布置了一个任务,要把他们电商平台里所有的用户在 PC 端和 App 上的浏览、点击、购买等行为日志都存放起来集中分析,并形成报表,以供老板每天查看。最初,小李觉得这个任务比较简单,他的基本思原创 2020-07-10 11:48:46 · 575 阅读 · 0 评论 -
Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)
转载:https://blog.csdn.net/tototuzuoquan/article/details/730037301.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.2 为什么使用Hive附上大佬的博客解释 为什么。https://blog...转载 2019-04-23 17:17:32 · 245 阅读 · 0 评论 -
xcall
#!/bin/bashpcount=$#if ((pcount<1)) ; then echo you are not wirter can shuo; exit;ficurrent_user=$(whoami)echo ----------------master ----------------$@echo ------------------node1 ...原创 2019-04-22 23:19:43 · 398 阅读 · 0 评论 -
hadoop集群 克隆虚拟机 注意事项
克隆虚拟机之后,首先删除/etc/udev/rules.d/70-persistent-net.rules文件,然后修改/etc/sysconfig/network-scriptd/ifcfg-eth0文件,修改HWADDR,IPADDR以及注释掉或删除UUID开头的一行内容,并修改HWADDR的内容为实际的地址,最后修改机器名。...原创 2019-03-30 13:38:45 · 345 阅读 · 0 评论 -
hadoop大数据基础复习笔记-day1
Hadoop集群启动顺序为:如果Hadoop集群是第一次启动,可以用start-all.sh。比较常用的启动方式是一个一个守护进程来启动,启动的步骤如下。(大方向是yarn on hdfs 所以先启动节点 再启动MapReduce的)1、启动Hadoop的HDFS模块里的守护进程(start-dfs.sh)HDFS里面的守护进程启动也有顺序,即:①启动NameNode守护进程。...原创 2019-03-30 13:37:07 · 867 阅读 · 0 评论 -
hadoop 切片 & 切片 和 map 的关系
切片机制(将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split,然后每一个split分配一个map(mapTask)并行实例处理 map个数:由任务切片spilt决定的,默认情况下一个split的大小就是block参与任务的文件个数决定的)正常情况下,你不设置切片大小的时候,默认切片与 块 的大小是相同的。在hadoop的clien...原创 2019-03-20 16:07:53 · 1413 阅读 · 0 评论