Hadoop从零开始(基于hadoop2.x版本)
文章平均质量分 77
且听_风吟
你还年轻,去爱去恨去相信,去追去梦去后悔。生命就该浪费在美好的事物上,还有资本,别怕失败。
展开
-
hadoop从零开始--HDFS篇
一、HDFS体系结构与基本概念珍惜生命,拒绝废话! 一句话概括:HDFS是distributed file system的简写,是众多分布式文件管理系统中的一种,不适合小文件,重要的事情再说一遍,不适合小文件。 二、HDFS的shell操作 这里总结大部分常用命令,不再过多解释,建议有linux基础的情况下学习。 1、基础命令 hdfs dfs -ls / 查看HDFS根目录 hdfs原创 2017-03-21 21:47:57 · 1645 阅读 · 0 评论 -
hadoop 2.5 分布式集群安装配置
配置规划: NN DN ZK ZKFC JN RM NM Node1 1 1 1 1 Node2 1 1 1 1 1 1 Node3 1 1 1 1 Node4 1 1 1 补充:克隆虚拟机出现网卡不识别 需要原创 2017-03-22 11:12:55 · 454 阅读 · 0 评论 -
hadoop从零开始--linux基础命令篇
linux基础命令篇 一、man_page 1.内部命令:echo 查看内部命令帮助:help echo 或者 man echo 2.外部命令:ls 查看外部命令帮助:ls --help 或者 man ls 或者 info ls 3.man文档的类型(1~9) man 7 man man 5 passwd 4.快捷键: ctrl + c:停止进程 ctrl原创 2017-03-23 11:40:16 · 887 阅读 · 0 评论 -
hadoop从零开始--linux常见错误及hadoop配置相关
linux常见错误及hadoop配置相关 批量自动删除rpm包: rpm -qa | grep mysql | while read c; do rpm -e $c --nodeps; done minimal最小化安装 eth0默认没有自启用 修改配置文件 onboot=true 修改静态地址后发现无法ping外网 需要设置网关 route add default gw原创 2017-03-23 11:48:19 · 541 阅读 · 0 评论 -
hadoop从零开始--linux下jdk,tomcat,mysql的安装
1. 安装JDK 1.上传jdk-7u45-linux-x64.tar.gz到Linux上 2.解压jdk到/usr/local目录 tar -zxvf jdk-7u45-linux-x64.tar.gz -C /usr/local/ 3.设置环境变量,在/etc/profile文件最后追加相关内容 vi /etc/profile export JAVA_HOME=/u原创 2017-03-23 11:55:31 · 651 阅读 · 0 评论 -
IP转长整数方法
在分析网站的客户来源经常会要求根据客户的ip地址去判断客户国家位置或者城市位置。当然要做到这一步,你要有一个详细的ip地址库。 ip地址库中一般是通过ip地址转换来的数字(长整数)来划分国家或者城市。ip地址库数据库的一般格式为: ... startIpLongNumber endIpLongNumber CountryName CountryCode CityName ... 而在应用...原创 2018-08-09 20:09:49 · 2675 阅读 · 0 评论 -
awk命令总结--实战篇
在大数据实际的开发工作中,经常要在linux下进行查看日志字段和数据校验查询等操作,所以awk命令是必不可少的,本文不扯生涩无用的基本理论用法等,只通过操作实例来展现awk命令的方方面面。读者可以结合awk命令基础篇来学习基础命令,然后结合本文进行练习,以求熟练掌握awk。 点击查看:awk命令总结--基础篇 Linux Web服务器网站故障分析常用的命令 系统连接状态篇: 1.查看TCP...原创 2018-08-15 11:04:57 · 924 阅读 · 0 评论 -
awk命令总结--基础篇
在我们进行实际的大数据开发工作中,尤其是涉及数据统计方面的日志分析业务中,经常需要用到awk来实现一系列的日志字段分析操作。本文介绍awk及相关命令的基础知识及使用,读者在学习后可以结合实战篇进行实际业务的操作学习,已经具备基础知识的读者可以直接查看实战篇。 点击查看:awk命令总结--实战篇 awk的输出: 一、print print的使用格式: print item1, ...原创 2018-08-15 11:14:34 · 1498 阅读 · 1 评论 -
Kafka总结
一、本质 一种分布式的、基于发布/订阅的消息系统 二、Kafka的特点 – 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化 – 高吞吐量:每秒百万级的消息读写 – 分布式:扩展能力强 – 多客户端支持:java、php、python、c++ …… – 实时性:生产者生产的message立即被消费者可见 三、Kafka架构 3.1 Broker(中介) • 每...原创 2018-08-16 16:53:43 · 802 阅读 · 0 评论