Hadoop
liangpz521
这个作者很懒,什么都没留下…
展开
-
ubuntu12.04安装hadoop1.2遇到的问题
安装方法 是按以下来安装 http://www.linuxidc.com/Linux/2013-06/86106.htm 安装完后 datanode启动不了 后来找了原因 按网上说的来做 还是不启动呢 后台运行 bin/hadoop datanode命令后 出现 WARN datanode.DataNode: Invalid directory in dfs.d原创 2013-09-13 11:41:48 · 833 阅读 · 0 评论 -
Ubunut12.04安装Thrift,方便支持php(四)
Thrift下载地址:http://thrift.apache.org/download/ 或 git clone https://git-wip-us.apache.org/repos/asf/thrift.git thrift 安装Thrift 前 根据不同的系统 安装不同的环境 环境配置请参照 : http://thrift.apache.org/docs/install/原创 2013-09-17 14:07:43 · 945 阅读 · 0 评论 -
hadoop 及word转换pdf方法介绍[个人整理资料2014-03-14]
sqoop import --connect jdbc:mysql://localhost:3306/yg_main --username root --password root --table item --hive-import --hive-table default.item -m 1 1.从mysql中导数据到hdfs和hive中 ./sqoop i原创 2014-03-14 16:01:05 · 952 阅读 · 0 评论 -
python 通过thrift 简单操作hbase
thrift 是facebook开发并开源的一个二进制通讯中间件,通过thrift,我们可以充分利用各个语言的优势,编写高效的代码。 关于thrift的论文:http://pan.baidu.com/share/link?shareid=234128&uk=3238841275 安装thrift:http://thrift.apache.org/docs/install/ubuntu/原创 2013-10-14 15:13:03 · 877 阅读 · 0 评论 -
hadoop 根据SecondaryNameNode恢复Namenode
1.修改conf/core-site.xml 增加 property> name>fs.checkpoint.periodname> value>3600value> description>The number of seconds between two periodic checkpoints. description> property> property> n转载 2013-10-08 15:48:35 · 711 阅读 · 0 评论 -
hadoop中mapred.tasktracker.map.tasks.maximum的设置
目前,我们邮件的一部分log已经迁移到Hadoop集群上 并由Hive来执行相关的查询 hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2 也即:每一个tasktracker同时运行的map任务数为2 照此默认设置,查询80天某用户的操作日志,耗时5mins, 45sec 经过测试,发现将mapred.tasktrac转载 2013-10-08 11:32:07 · 1631 阅读 · 0 评论 -
Hadoop集群中增加新节点
向一个正在运行的Hadoop集群中增加几个新的Nodes 1. 新节点上部署java/hadoop程序,配置相应的环境变量 2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys 3. 新节点上设置host,需要有集群中各节点的host对应 4. 新节点上建立相关的目录,并修改属主 5. master的slaves文件中增转载 2013-10-08 11:26:12 · 794 阅读 · 0 评论 -
Hadoop常用操作命令
启动Hadoop 进入HADOOP_HOME目录。执行sh bin/start-all.sh 关闭Hadoop 进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoop dfs –ls [文件目录] eg: hadoop dfs –ls /user/wangkai.pt 2、打开某个已存在文件原创 2013-09-18 09:49:37 · 1110 阅读 · 0 评论 -
用hive+hdfs+sqoop分析日志的步骤
现在的部分工作是进行日志分析,由于每天的日志压缩前80多G左右,用lzop压缩后10G左右,如果用shell直接进行统计,需要花费很长时间才能完成,而且还需要用java函数对request url进行转换,于是采用hive+hdfs+sqoop方案进行日志统计分析 hadoop+hive+hdfs+sqoop的架构就不详细说了,可以直接用cloudera的repo直接安装 日志分析步骤转载 2013-09-17 14:42:39 · 1521 阅读 · 0 评论 -
Ubunut12.04安装Sqoop(三)
sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 下载地址:http://mirrors.hust.edu.cn/apache/sqoop/1.4.3/sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz 另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java原创 2013-09-17 13:53:45 · 1001 阅读 · 0 评论 -
Ubuntu12.04安装Hive(二)
This post is about the installation of Hive on Ubuntu. The environment of my system is ubuntu12.04, hadoop1.0.3, hive 0.9.0. Supposing the hadoop is installed. The details of installation for hive原创 2013-09-17 13:30:19 · 1437 阅读 · 0 评论 -
Ubuntu 12.04上搭建Hadoop环境(一)
首先要了解一下Hadoop的运行模式: 单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于原创 2013-09-17 13:13:18 · 1379 阅读 · 2 评论 -
利用SQOOP将数据从数据库导入到HDFS
基本使用 如下面这个shell脚本: #Oracle的连接字符串,其中包含了Oracle的地址,SID,和端口号 CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2 #使用的用户名 ORACLENAME=kkaa #使用的密码 ORACLEPASSWORD=kkaa123 #需要从Oracle中导入的表名 oralc原创 2013-09-30 13:36:30 · 745 阅读 · 0 评论