大数据
诗水人间
要想走的更远,就需要思考更深层次的问题。冷静、智慧、深沉是我所向往的
展开
-
大数据 行业组织结构分析- - - - 分析未来走的方向
平台组:偏向与技术(技术越高薪资越高)、随着年龄增长要求技术不断更新如果达到能修改hadoop等源代码,按照自己的需求修改。进行编译搭建的环境 6w起步。偏向于运维第一个:要把学过的框架环境搭建起来。主要功能采集数据,把需要的数据采集到另外一个平台。第二个:发现框架能不能正常运行、以及监控Flume数据量的情况。第三个:改进框架的性能数据仓库组:(需求...原创 2019-09-25 01:06:20 · 140053 阅读 · 0 评论 -
Hadoop组成(面试经常考到)hadoop1.x和2.x版本的区别 以及生态
在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。增加yarn的主要目的是解耦!将计算和资源调度区分开NameNode、DataNode、Secondary NameNode:NameNode(nn):存储文件的...原创 2019-09-25 01:41:31 · 130107 阅读 · 0 评论 -
hadoop-3.2.1完全分布式配置 和 群起集群,50070改成了9870端口
前置操作 jdk和hadoop环境变量要配置好三台服务器的名称分别是hadoop112、hadoop113、hadoop114修改了/etc/hosts文件将三个名称绑定了服务器例如hadoop112 192.168.1.112hadoop113 192.168.1.113hadoop114 192.168.1.114注意hado...原创 2019-10-23 00:23:18 · 143145 阅读 · 0 评论 -
hadoop源码编译
前提条件首先确保Centos能够连接到外网:全新的系统在默认不改配置条件下就可以联网,如果修改则按照下面的方法修改https://blog.csdn.net/qq_41813208/article/details/101027226首先需要下载几个软件包官网分别是:https://ant.apache.org/bindownload.cgihttp://mav...原创 2019-10-19 14:27:40 · 127207 阅读 · 0 评论 -
ntp crontab同步集群服务器时间
实际情形:当服务器非常多的时候,比如1000台服务器,要求每天或者某个时间点开启服务,或者执行一项job。配置过程首先检查 ntp 命令是否安装没有安装则安装一下yum install ntp ntpdate -y为了方便切换到root用户执行su root编辑配置文件vim /etc/ntp.conf如图在文件末尾添加server 1...原创 2019-10-19 02:15:59 · 147198 阅读 · 0 评论 -
hadoop-2.7版本的完全分布式模式配置 和 群起集群
前提:需要3台配置好jdk和hadoop环境变量的虚拟机可以配置好一台服务器然后用xsync脚本进行同步,具体见另外一篇博客https://blog.csdn.net/qq_41813208/article/details/102575933其中三台服务器的名称分别是hadoop112、hadoop113、hadoop114修改了hosts文件将三个名称绑定了服务器例如...原创 2019-10-16 22:50:36 · 123540 阅读 · 0 评论 -
搭建hadoop集群------准备工作
第一步、设置静态ipCentos:https://blog.csdn.net/qq_41813208/article/details/101027226Ubuntu:https://blog.csdn.net/qq_41813208/article/details/100718624第二步、修改主机名Centos:vim /etc/sysconfig/network如截图,...原创 2019-10-15 04:37:10 · 150993 阅读 · 0 评论 -
hadoop学习笔记篇----基础介绍
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。1、Hadoop的特性4V: Volume大量 Velocity高速 Variety多样 Value低价值密度 ...原创 2019-09-03 00:13:28 · 120064 阅读 · 0 评论 -
ubuntu19.04系统搭建hadoop2.7环境
为了方便先给root用户设置密码首先ctrl+alt+t 打开命令行,接下来为root用户设置密码sudo passwd root123456 (密码是不会显示出来的)首先安装配置JDK环境链接:Ubuntu19.04安装配置JDK8博客链接Hadoop配置 -----配置环境变量的时候注意文件夹路径和名称找到hadoop2.7的tar.gz包解...原创 2019-09-10 17:46:28 · 123379 阅读 · 0 评论 -
运行hadoop2.7的:本地模式、伪分布式模式以及 完全分布式 模式 对应的几个案例讲解
关于vim 使用sudo apt-get install vim 安装vi 经常出问题,不习惯,建议使用vim一、本地模式 ===》官方案例 Grep案例讲解 在hadoop-2.7.7文件下面创建一个input文件夹 mkdir /opt/software/hadoop-2.7.7/input 复制hadoop的配置文件到input内 cp /opt...原创 2019-09-11 01:05:55 · 123949 阅读 · 0 评论 -
hadoop的发展历史
Lucene 框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。2001年年底Lucene成为Apache基金会的一个子项目。 对于海量数据的场景,Lucene面对与Google同样的困难,存储数据困难,检索速度慢。 学习和模仿Google解决这些问题的办法 :微型版Nutch...原创 2019-09-25 01:24:38 · 144294 阅读 · 0 评论 -
Ubuntu19.04安装配置JDK8
---卸载jdksudo apt-get autoremove openjdk-8-jre-headless不知道版本可以sudo apt-get autoremove openjdk按tab键自动补全第一步:安装配置jdk环境方式一、:sudo apt install openjdk-8-jdk 命令安装 需要联网,首先需要更新一下软件源。该方式是通过包管理进行安装的...原创 2019-09-18 13:34:08 · 166006 阅读 · 1 评论 -
hadoop完全分布式- - - - - -scp 、rsync 和 xsync 命令工具讲解
1. scp(secure copy)安全拷贝(1)scp定义: scp可以实现服务器与服务器之间的数据拷贝。(fromserver1toserver2)(2)基本语法 scp-r $pdir/$fname $user@hadoop$host:$pdir/$fname 命...原创 2019-09-17 22:02:56 · 110850 阅读 · 0 评论 -
hadoop开发中常用的端口号有那些?
50070 查看hdfs文件系统的8088 查看MapReduce原创 2019-09-14 16:20:22 · 106786 阅读 · 0 评论 -
NameNode不能一直格式化的原因
当执行hdfs namenode -format 对data文件夹格式化。那么该文件夹下的文件将会重新生成 集群id集群id在下面这个路径下的VERSION 文件能找到cat /opt/software/hadoop-2.7.7/data/tmp/dfs/data/current/VERSIONcat /opt/software/hadoop-2.7.7/data/tmp/...原创 2019-09-12 00:11:51 · 156096 阅读 · 0 评论