Hadoop
IT布道者
这个作者很懒,什么都没留下…
展开
-
Hadoop伪分布式环境搭建
准备Linux环境1.0 设置虚拟机 Vmware情况下: 点击VMware快捷方式,右键打开文件所在位置 -> 双击 vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows –> 打开网络和共享中心 -> 更改适配器设置 -> 右原创 2015-05-18 21:43:15 · 512 阅读 · 0 评论 -
Zookeeper的Java客户端
zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,由于产品升级拓展,pom等文件配置越来越复杂,因此zk派上用场。一.zookeeper简介一款管理分布式应用程序的协调服务系统二.zookeeper应用场景 网上也有很多介绍,可以参见 http:/原创 2015-08-15 10:34:06 · 371 阅读 · 0 评论 -
Zookeeper之观察机制(配置服务)
ConnectionWatcher// vv ConnectionWatcherpublic class ConnectionWatcher implements Watcher { private static final int SESSION_TIMEOUT = 5000; protected ZooKeeper zk; private CountDownLatch connecte原创 2015-08-11 21:16:25 · 717 阅读 · 0 评论 -
Zookeeper之创建组,加入组,列出组成员和删除组
创建组znodepublic class CreateGroup implements Watcher { private static final int SESSION_TIMEOUT = 5000; private ZooKeeper zk; private CountDownLatch connectedSignal = new CountDownLatch(1); public原创 2015-08-09 19:28:50 · 1590 阅读 · 0 评论 -
Zookeeper学习1---zk配置
zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。配置文件属性说明 其中各配置项的含义,解释如下:1.tickTime:CS通信心跳时间 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。 tickTime=2000原创 2015-06-12 23:45:11 · 398 阅读 · 0 评论 -
搜索引擎-倒排索引基础知识
目录(?)[-] 1单词文档矩阵 2倒排索引基本概念 3倒排索引简单实例 4 单词词典 搜索引擎的索引1.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。转载 2015-06-09 16:46:06 · 484 阅读 · 0 评论 -
MapReduce之二——收入支出数据处理与自定义排序
1.原始数据:trade_info.txtzhangsan@163.com 6000 0 2014-02-20lisi@163.com 2000 0 2014-02-20lisi@163.com 0 100 2014-02-20zhangsan@163.com 3000 0 2014-02-20wangwu@126.com 9000原创 2015-06-07 12:27:28 · 586 阅读 · 0 评论 -
MapReduce之一——上网流量数据统计
1.原始日志数据:1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4原创 2015-06-07 12:12:41 · 693 阅读 · 0 评论 -
MapReduce之三—搜索引擎-倒排索引实现
1.原始数据a.txthello tomhello jerryhello kittyhello worldhello tomb.txthello jerryhello tomhello world过程模拟Map阶段<0,"hello tom">....context.write("hello->a.txt",1);context.write("hello->a.txt",1);原创 2015-06-09 17:14:17 · 733 阅读 · 0 评论 -
hadoop之hive部署
Hive只在一个节点上安装即可部署计划: 在cent03上部署hive节点 在cent05上安装mysql1.上传tar包2.解压 tar -zxvf hive-0.14.0.tar.gz -C /usr/cloud/ 3.配置mysql metastore(切换到root用户) 配置HIVE_HOME环境变量 //查看 Linux自带的mysql原创 2015-06-22 17:03:35 · 508 阅读 · 0 评论 -
搭建Hadoop遇见问题集合
在使用./sbin/start-dfs.sh或./sbin/start-all.sh启动时会报出这样如下警告:Java HotSpot(TM) 64-Bit Server VM warning: You have loaded library /usr/local/hadoop-2.2.0/lib/native/libhadoop.so.1.0.0 which might have disable原创 2015-05-22 23:52:06 · 2172 阅读 · 0 评论 -
hadoop之HBase集群搭建及使用
集群搭建部署计划:cent07,cent08 运行HMastercent04,cent05,cent06 运行HRegionServer1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下3.1修改h原创 2015-06-22 20:14:24 · 399 阅读 · 0 评论 -
hadoop之HDFS/MapReduce的java接口简单测试
1、首先建立一个java项目 2、创建个lib文件夹添加jar包(在附件); 具体路径:\hadoop-2.6.0\share\hadoop\common 三个;\hadoop-2.6.0\share\hadoop\common\lib 所有\hadoop-2.6.0\share\hadoop\hdfs 三个3,具体测试代码://已省略导入的包public class HdfsDemo原创 2015-05-30 21:27:24 · 1453 阅读 · 0 评论 -
Hadoop集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库, 所以如果在64位的操作上安装hadoop-2.4.1就需要重新在64操作系统上重新编译 (建议第一次安装用32位的系统,我将编译好的6原创 2015-06-17 11:30:09 · 552 阅读 · 0 评论