hadoop
一点寒芒先至
这个作者很懒,什么都没留下…
展开
-
hadoop(一)centos配置hadoop单机
centos6.6(一).linux配置1.修改静态ip第一种:通过Linux图形界面进行修改(强烈推荐)进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual -> 点击...原创 2018-03-24 15:24:00 · 381 阅读 · 0 评论 -
hadoop(十二)hbase数据库+集群搭建+Api
HBASE表结构:建表时,不需要限定表中的字段,只需要指定若干个列族插入数据时,列族中可以存储任意多个列(KV,列名&列值)要查询某一列具体字段的值,需要指定的坐标:列名--->行健--->列族:列名--->版本 hbase的存放策略:一张大表切分为多个Region,Region放在多个Region Server上,Region Server将...转载 2018-08-24 16:00:49 · 204 阅读 · 0 评论 -
hadoop(十一)hive或者spark sql
hive安装hiveHive只在一个节点上安装即可1.上传tar包2.解压 tar -zxvf hive-0.9.0.tar.gz -C /cloud/3.配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 查询以前安装的mysql相关包 rpm -qa | grep mysql 暴力删除这个...转载 2018-08-24 15:55:40 · 144 阅读 · 0 评论 -
hadoop(十)hadoop集群Java Api
import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;imp...转载 2018-08-24 15:13:32 · 215 阅读 · 0 评论 -
hadoop(九)hadoop+zookeeper集群搭建
zookeeper搭建zookeeper命令第6步不同修改zoo.cfg,修改vi zoo.cfgtickTime=2000dataDir=/usr/local/zookeeper-3.4.6/datadataLogDir=/usr/local/zookeeper-3.4.6/logs clientPort=2181 ...转载 2018-08-24 11:15:22 · 312 阅读 · 0 评论 -
hadoop(八-3)demo-MapReduce自定义分组(选修)
1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 2001363157991076 1...转载 2018-08-24 10:52:20 · 136 阅读 · 0 评论 -
hadoop(八-2)demo-MapReduce排序(选修)
对1中的结果进行排序 :13480253104 180 200 38013502468823 102 7335 743713560436666 954 200 115413560439658 5892 400 629213602846565 12 1938 195013660577991 ...转载 2018-08-23 22:35:38 · 129 阅读 · 0 评论 -
hadoop(八-1)demo-MapReduce开发(选修)
统计 下面的数据进行的上行和下载流量和总流量(对应第7,8列,从0列开始)1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.19...转载 2018-08-23 20:36:00 · 202 阅读 · 0 评论 -
hadoop(七)mapReduce运行模式
MR程序的几种提交运行模式本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://weekend110:9000/wc/srcdata) ...转载 2018-08-23 17:07:33 · 137 阅读 · 0 评论 -
hadoop(六)HDFS的wordcount手写源码(选修)
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apac...转载 2018-08-23 16:52:36 · 284 阅读 · 0 评论 -
hadoop(五)HDFS的RPC Java客户端编程
RPC远程调用 public interface LoginServiceInterface { public static final long versionID=1L; public String login(String username,String password);}public class LoginServiceImpl implements Logi...转载 2018-08-23 16:25:32 · 159 阅读 · 0 评论 -
hadoop(四)HDFS的Java客户端编程
Hadoop都是运行在Linux系统下的,在windows下eclipse中运行mapreduce程序,要首先安装Windows下运行的支持插件(我的是hadoop2.6-common-bin.zip)<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>...转载 2018-08-23 13:47:00 · 642 阅读 · 0 评论 -
hadoop(十四)kafaka消息队列
kafka笔记 1/kafka是一个分布式的消息缓存系统2/kafka集群中的服务器都叫做broker3/kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4/kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5/每一...转载 2018-08-26 10:57:46 · 1510 阅读 · 0 评论 -
hadoop(三)进一步理解
HDFS的实现思想:1.hdfs是通过分布式集群来存储文件,吧文件切分成block,存放在若干平台的datanode数据节点2.hdfs文件系统的文件与block之间有映射关系,由namenode命名服务器管理3.每一个block在集群中会存多个副本,好处是可以提高系统的可靠性,还可以提高系统的吞吐量 Map ReduceJobTracker hadoop的Ma...原创 2018-03-25 14:59:30 · 212 阅读 · 0 评论 -
hadoop(二)基本使用
使用前修改 C:\Windows\System32\drivers\etc 下的host文件(不修改会导致部分功能无法使用)加入192.168.116.16 hadoop1进入/share/hadoop/mapreduce会发现hadoop-mapreduce-examples-2.4.1.jar这个jar包,后续操作都依赖这个jar包1.wordcount统计单词出现次数vi test.txth...原创 2018-03-25 14:39:05 · 221 阅读 · 0 评论 -
hadoop(十三)storm流式计算(实时处理)
storm介绍说明+安装文档 Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。被称作“实时的hadoop”。Storm有很多使用场景:如实时分析,在线机器学习,持续计算, 分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理 数以百万计的消息)。St...转载 2018-08-25 09:50:20 · 3517 阅读 · 0 评论