大数据
Jensen_smile
这个作者很懒,什么都没留下…
展开
-
大数据节点预配置--安装Hadoop、配置jdk等
首先原创 2019-04-02 10:25:53 · 451 阅读 · 0 评论 -
集群时间同步
时间同步的方式:找一个机器,作为时间服务器。所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。配置时间服务器使用root用户查询是否已经安装ntp[root@hadoop102 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el...原创 2019-06-28 17:52:02 · 1505 阅读 · 1 评论 -
Hadoop基本配置文件总结
原创 2019-06-27 11:16:56 · 245 阅读 · 0 评论 -
配置日志的聚集
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS系统上。日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryManager。开启日志聚集功能具体步骤如下:配置yarn-site.xml[atguigu@hadoop101 hadoop]$ vi yarn...原创 2019-06-27 10:28:05 · 195 阅读 · 0 评论 -
Hadoop配置历史服务器
配置历史服务器为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:配置mapred-site.xml[atguigu@hadoop101 hadoop]$ vi mapred-site.xml在该文件里面增加如下配置。mapreduce.jobhistory.addresshadoop101:10020 mapreduce.jobhistory....原创 2019-06-27 10:18:41 · 241 阅读 · 0 评论 -
运行Hadoop的wordcount案例
官方WordCount案例创建在hadoop-2.7.2文件下面创建一个wcinput文件夹[atguigu@hadoop101 hadoop-2.7.2]$ mkdir wcinput在wcinput文件下创建一个wc.input文件[atguigu@hadoop101 hadoop-2.7.2]$ cd wcinput[atguigu@hadoop101 wcinput]$ tou...原创 2019-06-26 17:23:41 · 147 阅读 · 0 评论 -
大数据概念
大数据是无法在一定时间内使用常规工具捕捉、管理、处理的数据集合,是海量、高增长率和多样化的信息资产。要替代常规的数据工具如mysql等,需要新的处理模式才能具有更强的决策力和流程优化能力。...原创 2019-06-26 08:39:56 · 231 阅读 · 0 评论 -
DataNode和NameNode的clusterID不一致
如果查看到50070可视化界面中的live node数为0,则有可能是DataNode和NameNode的clusterID不一致。解决方案:推荐方案:关闭Hadoop,删除各个datanode中的data文件夹下的所有文件,启动Hadoop,这样不用更换namenode中的clusterID。第二种方案就是格式化namenode。关键代码:hadoop namenode -forma...原创 2019-05-13 09:41:24 · 2753 阅读 · 1 评论 -
分布式项目中:session一致性问题
如果负载均衡器以轮询的方式向tomcat转发session,那么用户的session将会出现不能和某一服务器维持会话的问题。这就是session一致性问题的一个简单例子。...原创 2019-05-16 16:40:17 · 257 阅读 · 0 评论 -
zookeeper学习总结2:使用idea建立项目访问zookeeper
目的:在zookeeper客户端下放置一个节点,并从idea的程序中查询它:在zookeeper客户端下放置节点:create /username zgx建立maven项目并添加zookeeper依赖。 <dependency> <groupId>org.apache.zookeeper</groupId> <artifac...原创 2019-05-16 10:25:39 · 1645 阅读 · 0 评论 -
zookeeper学习总结1:zookeeper入门
什么是zookeeperZookeeper是Hadoop的一个子项目,它是分布式系统中的协调系统,可提供的服务主要有:分布式配置服务、统一命名服务、分布式状态同步、集群管理服务等。zookeeper的最大作用是监听通知机制,客户地段注册监听它关心的节点,当节点发生变化(如数据修改,删除,子目录节点添加或删除)时,zookeeper会通知客户端。Zookeeper特点:简单: Zooke...原创 2019-05-15 21:52:49 · 122 阅读 · 0 评论 -
分布式计算架构的意义
单一应用架构当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本。此时,用于简化增删改查工作量的数据访问框架(ORM) 是关键。垂直应用架构当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆成互不相干的几个应用,以提升效率。此时,用于加速前端页面开发的Web框架(MVC) 是关键。分布式服务架构当垂直应用越来越多,应用之间交互不可避免,将核心业务抽...转载 2019-05-07 17:14:43 · 1074 阅读 · 0 评论 -
Hadoop2.6.5架构图+集群搭建---使用QJM实现HA
1.在各个节点安装配置jdk、Hadoop。2.配置ssh使namenode可以访问其他节点。3.在namenode上启动start-dfs.sh原创 2019-05-06 12:42:00 · 229 阅读 · 0 评论 -
Hadoop基础命令
操作hdfs系统#基本格式hdfs dfs -[linux命令]#如hdfs dfs -mkdir -p /user/root#上传文件到dfs目录hdfs dfs -put hadoop-2.6.5.tar.gz /user/root#指点块大小上传文件,hdfs中不同文件可以按不同块大小存储hdfs dfs -D dfs.blocksize=1048576 -put test....原创 2019-05-06 10:11:28 · 154 阅读 · 0 评论 -
Hadoop伪分布式初始化
格式化分布式文件系统bin/hdfs namenode -format成功显示:此时在/var/sxt/hadoop/local/dfs/name/current下就会出现4个文件:fsimage_0000000000000000000 seen_txidfsimage_0000000000000000000.md5 VERSIONVERSION的内容为:[ro...原创 2019-05-05 20:34:24 · 398 阅读 · 0 评论 -
使用ssh秘钥实现节点免密登录
A要实现使用ssh秘钥进行免密登录B,则需要在A下生成ssh公钥,放入B的ssh配置文件里。 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa此时在~/.ssh/下生成两个文件:id_dsa和id_dsa.pubid_dsa : 生成的私钥文件id_dsa.pub : 生成的公钥文件 #将公钥放在对方机器的配置文件下 #注意放到你想登录的用户...原创 2019-05-05 16:43:06 · 770 阅读 · 0 评论 -
centOS关闭防火墙
CentOS7.0CentOS7.0默认使用的是firewall作为防火墙:systemctl start firewalld.service #启动firewallsystemctl stop firewalld.service #停止firewallsystemctl disable firewalld.service #禁止firewall开机启动CentOS6.5CentOS...原创 2019-04-02 18:09:10 · 101 阅读 · 0 评论 -
HDFS介绍
HDFS产生背景随着数据量越来越大, 在一个操作系统存不下所有的数据, 那么就分配到更多的操作系统管理的磁盘中, 但是不方便管理和维护, 迫切需要一种系统来管理多台机器上的文件, 这就是分布式文件管理系统。 HDFS只是分布式文件管理系统中的一种。HDFS定义HDFS(Hadoop Distributed File System) , 它是一个文件系统, 用于存储文件, 通过目录树来...原创 2019-06-28 18:56:21 · 334 阅读 · 0 评论