tttjjjlll-CSDN博客

原创 Mysql_Faq: ERROR 1396 (HY000): Operation CREATE USER failed for ‘username’@’host

在对mysql 权限进行管理的时候出现如下错误：ERROR 1396 (HY000): Operation CREATE USER failed for ‘username’@’hostname’But 这个用户只真是存在的。回想一个之前的操作 : 先是用 grant 语句创建了一个用户，然后权限有变用 update 更新了一下 mysql.user 的数据。结果就出现了上面的错...

2015-12-15 15:05:15 310

原创 centos6.5升级mysql数据库

操作系统：CentOS-6.5-x86_64-minimal[b][root@localhost ~]# cat /etc/redhat-release[/b]CentOS release 6.5 (Final)卸载自带的5.1的mysql-libs包[b]#rpm -e --nodeps mysql-libs[/b]安装wget[b]#yum inst...

2015-12-15 14:59:14 202

原创安装HDP2.1 在注册ambari-agent发生的错

具体错误如下：SSLError: Failed to connect. Please check openssl library versions解决方案：这是由于centos6.5(我们是用的这个)默认装的openssl的版本问题太低造成的，通过以下解决：1、Check the OpenSSL library version installed on your host(s)...

2015-12-15 10:30:18 439

原创 JAVA_OPTS

JAVA_OPTS ，顾名思义，是用来设置JVM相关运行参数的变量。JVM:JAVA_OPTS="-server -Xms2048m -Xmx2048m -Xss512k"-server:一定要作为第一个参数，在多个CPU时性能佳-Xms：初始Heap大小，使用的最小内存,cpu性能高时此值应设的大一些-Xmx：java heap最大值，使用的最大内存上面两...

2015-02-13 14:08:03 203

原创使用impala中出现的问题一

impala版本：impala-1.3.0-cdh5.0.0-src.tar.gz 编译后的版本编译好后，在启动impala查询时候出现了下列的错误：[code="java"]Query: show tablesERROR: AnalysisException: This Impala daemon is not ready to accept user request...

2014-05-16 17:33:41 1272

原创 Hadoop 归档和HIVE 如何使用har 归档文件

Hadoop archive 唯一的优势可能就是将众多的小文件打包成一个har 文件了，那这个文件就会按照dfs.block.size 的大小进行分块，因为hdfs为每个块的元数据大小大约为150个字节，如果众多小文件的存在（什么是小文件内，就是小于dfs.block.size 大小的文件，这样每个文件就是一个block）占用大量的namenode 堆内存空间，打成har 文件可以大大降低na...

2014-05-01 23:47:03 442

原创 Hadoop的JVM重用

Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks(hadoop2 为：mapreduce.job.jvm.numtasks)，默认是1，表示一个JVM上最多可以顺序执行的task数目（属于同一个Job）是1。也就是说一个task启一个JVM。比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段，slave节...

2014-05-01 20:21:07 655

原创 Hadoop 优化总结(一)

1. 使用自定义Writable自带的Text很好用，但是字符串转换开销较大，故根据实际需要自定义Writable，注意作为Key时要实现WritableCompareable接口避免output.collect(new Text( ),new Text())提倡key.set( ) value.set( ) output.collect(key,value)前者会产生大量的Te...

2014-04-27 12:09:38 114

原创 Hive metastore三种配置方式

Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore。一、本地derby这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可[code="java"] javax.jdo.option.Con...

2014-03-28 13:28:31 198

原创 GIT在Linux上的安装和使用简介

GIT最初是由Linus Benedict Torvalds为了更有效地管理Linux内核开发而创立的分布式版本控制软件，与常用的版本控制工具如CVS、Subversion不同，它不必服务器端软件支持，速度和效率也有着相当程度的提高。　　如果拥有CVS或者SVN的使用背景，那么更熟悉的方法是客户端-服务器端模式，所有的文件仓库(repository)都是存放在服务器上的，用户需要在本地安装...

2014-03-21 13:58:26 72

原创关于oozie调用shell的一个例子

完成的功能，执行t.sh,并且通过workflow像t.sh传递参数workflow.xml[code="java"] ${jobTracker} ${nameNode} map...

2014-03-18 16:49:56 427

原创 Map/Reduce Task JVM 堆大小设置优化

前一阵子发现用户提交的hive query和hadoop job会导致集群的load非常高，经查看配置，发现很多用户擅自将mapred.child.java.opts设置的非常大，比如-Xmx4096m(我们默认设置是-Xmx1024m), 导致了tasktracker上内存资源耗尽，进而开始不断swap磁盘上数据，load飙升TaskTracker在spawn一个map/reduce ta...

2014-03-13 15:15:33 290

原创 hadoop参数配置优化

[size=medium]hadoop.tmp.dir默认值： /tmp说明：尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果服务器是多磁盘的，每个磁盘都设置一个临时文件目录，这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。fs.trash.interval默认值： 0说明：这个是开启hdfs文件...

2014-03-13 15:12:37 78

原创 Hadoop为什么处理小数据量时效果不好？

[size=medium]Every file, directory and block in HDFS is represented as an object in the namenode’s memory, each of which occupies 150 bytes, as a rule of thumb. So 10 million files, each using a blo...

2014-03-11 16:50:56 372

原创 LINUX下查看文件夹下的文件个数

[size=medium]查看文件夹下的文件个数(当前目录的文件数)ls -l | grep "^-" | wc -l 说明: ls -l 长列表输出该目录下文件信息(注意这里的文件，不同于一般的文件，可能是目录、链接、设备文件等) grep ^- 这里将长列表输出信息过滤一部分，只保留一般文件，如果只保留目录就是 ^d wc -...

2014-03-11 13:55:19 109

spark on yarn 出现的问题(一)

测试spark on yarnspark版本：spark-0.9.0-incubating-bin-hadoop2WordCount.scala 代码：[code="java"]import org.apache.spark._import SparkContext._object WordCount { def main(args: Array[Stri...

2014-03-05 18:09:32 274

原创 Hadoop : MapReduce中的Shuffle和Sort分析

[size=medium]MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。 MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。当你向MapReduce 框架提交一个计算作业时，它会首先把计算...

2014-03-03 14:06:11 81

原创关于Hadoop的shuffle

[size=medium] 我们知道每个reduce task输入的key都是按照key排序的。但是每个map的输出只是简单的key-value而非key-valuelist，所以洗牌的工作就是将map输出转化为reducer的输入的过程。在map结束之后shuffle要做的事情： map的输出不是简单的写入本地文件，而是更多的利用内存缓存和预排序...

2014-03-03 11:16:40 102

原创 Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError:

hadoop执行JOB在reduce阶段报了下面的错误：[code="java"]Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#4 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.r...

2014-03-01 23:17:22 2303

原创 hadoop Caused by: java.io.IOException: Filesystem closed

今天在执行hive的时候报了下面的错:[code="java"] 2014-02-25 09:07:20,021 INFO [IPC Server handler 17 on 60055] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1393225005206_083...

2014-02-25 13:46:14 460

原创 Error in storing RMDelegationToken with sequence number:

今天用oozie调度hadoop任务时，发现在每次在执行时，RM进程就被kill掉了，查看yarn-hadoop-resourcemanager-master1.log日志，报了下面的错：[code="java"] Error in storing RMDelegationToken with sequence number: 1962[/code]出现上面的错的原因是由于zo...

2014-02-20 11:05:23 98

原创 Max block location exceeded for split

今天用sqoop往oracle导数据的时候报了下面的一个错：[code="java"]14/02/11 09:33:56 ERROR security.UserGroupInformation: PriviledgedActionException as:hadoop (auth:SIMPLE) cause:java.io.IOException: Max block location...

2014-02-11 10:11:14 686

原创解决crontab调用shell无法读取环境变量的问题

今天写了一个shell脚本，单独执行的时候没有任何问题，但是当用crontab调度的时候却怎么都无法执行，原因是没有加载到相应的环境变量。提供一个解决办法：执行crontab -e 用以下方式添加: 30 10 * * * source ~/.bashrc && cd /home/work/mydir && ./mypro.sh 这样相应的环境变量就...

2013-12-27 10:43:01 894

原创 hadoop详细安装和配置

hadoop版本：hadoop-2.2.0-cdh5.0.0-beta-1jdk版本：jdk-7u40-linux-x64环境准备：10.95.3.100 master110.95.3.101 master210.95.3.103 slave110.95.3.104 slave2说明：本安装没有进行hdfs HA配置，NameNode和SecondaryName...

2013-11-08 10:42:50 178

原创执行mr时候报的一个错

hadoop版本:hadoop-2.2.0-cdh5.0.0-beta-1今天在执行sqoop往hbase里导数的时候，DN节点报了下面的错:[code="java"]Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnRuntimeExce...

2013-11-07 18:07:09 193

原创 zookeeper启动的一个错误

[code="java"]2013-11-07 16:09:06,470 [myid:] - INFO [main:QuorumPeerConfig@101] - Reading configuration from: /dp/zookeeper/bin/../conf/zoo.cfg2013-11-07 16:09:06,481 [myid:] - INFO [main:Quorum...

2013-11-07 17:11:43 523

原创 hbase的基本安装和配置

hbase 版本：hbase-0.95.2-cdh5.0.0-beta-1.tar.gzhadoop版本：hadoop-2.2.0-cdh5.0.0-beta-1.tar.gzzookeeper版本：zookeeper-3.4.5-cdh5.0.0-beta-1.tar.gzhadoop和zookeeper的安装这里不赘述，安装方式可以参考我写的其他的相应文章。服务器如下：...

2013-11-07 17:05:31 73

原创 zookeeper安装和配置

zookeeper版本：zookeeper-3.4.5-cdh5.0.0-beta-1.tar.gz服务器： 10.95.3.100 master1 10.95.3.103 slave1 10.95.3.104 slave11、解压zookeeper-3.4.5-cdh5.0.0-beta-1.tar.gz，进入zookeeper/c...

2013-11-07 16:20:42 109

原创安装CDH5 hadoop2.2.0遇到的配置问题(二)

hadoop版本：hadoop-2.2.0-cdh5.0.0-beta-1今天在安装hadoop后，启动了namenode，在执行hadoop fs -put /tmp/test.dat /test命令后，报了下面的一个错：[code="java"]13/11/05 23:40:36 WARN util.NativeCodeLoader: Unable to load native...

2013-11-06 18:45:11 113

原创安装CDH5 hadoop2.2.0遇到的配置问题

hadoop版本: cloudera hadoop2.2 CDH5 今天在安装hadoop后，启动start-yarn.sh后，nodemanager起不起来，后来查看DN节点的日志，报了以下一个错误：[code="java"] FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error startin...

2013-11-06 18:24:57 169

原创关于hadoop的dfs.replication 的一个问题

今天在使用hadoop fsck / 命令查看hadoop dfs时，输出如下：............................................./user/hadoop/.staging/job_1381991904684_0036/libjars/zookeeper-3.4.5-cdh4.3.0.jar: Under replicated BP-2044520...

2013-10-18 10:12:48 464

原创 hadoop fsck命令详解

hadoop fsckUsage: DFSck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 检查这个目录中的文件是否完整 -move 破损的文件移至/lost+found目录 ...

2013-10-17 14:38:23 167

原创 sqoop导hbase zookeeper出现的问题

由于测试环境的改变，使用sqoop从oracle往hbase导数时一直出现下列错误：[code="java"]13/10/12 10:16:54 INFO zookeeper.ZooKeeper: Client environment:java.library.path=/dw/hadoop-2.0.0-cdh4.3.0/lib/native13/10/12 10:16:54 INFO...

2013-10-12 10:46:55 825

原创 hadoop HA 备NN无法启动的问题

今天在把原来的hadoop HA的环境给变换了，在start-dfs.sh时，报了以下一个错误：013-09-23 16:39:33,248 INFO org.apache.hadoop.hdfs.server.namenode.NameNode: Web-server up at: slave3:500702013-09-23 16:39:33,248 INFO org.apache.h...

2013-09-23 17:05:12 464

原创使用JDBC执行impala SQL出现的问题

impala版本：1.1.1 hive版本：0.10 最近在使用JDBC执行impala sql的时候遇到一个问题，使用JDBC执行insert overwrite/into table...select...语句的时候，执行的结果显示是成功，但是查看表中的数据的时候，发现数据并没有插入到目标表中。通过查看http://impala-node-hostname:2500...

2013-09-11 11:34:48 1697

原创 Win7下Eclipse中文字体太小

最近新装了Win7，打开eclipse3.7中文字体很小，简直难以辨认。在网上搜索发现这是由于Eclipse 3.7 用的字体是 Consolas，显示中文的时候默认太小了。解决方式有两种：一、把字体设置为Courier New 操作步骤：打开Elcipse，点击菜单栏上的“Windows”——点击“Preferences”——点击“Genneral”——点击“Appearan...

2013-09-09 09:48:32 69

原创关于oozie时区的设置

oozie版本：oozie-4.0.0-cdh5.0.0-beta-1 oozie默认的时区是UTC，所以我们在定时跑任务的时候，如果设置的时间是当前时间，发现JOB并不会跑起来，而是处于PREA状态。如果需要JOB按照我们的设置的时间去跑该如何设置？我们在配置任务的时候，在coordinator.xml中，有时区的配置，默认是timezone="UTC"，当我们...

2013-09-05 09:35:55 209

原创 hadoop CHD4 HA 详细安装和配置

准备：下载安装hadoopwget http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.3.0.tar.gz下载安装zookeeperwget http://archive.cloudera.com/cdh4/cdh/4/zookeeper-3.4.5-cdh4.3.0.tar.gz[b]1、当前hadoop集群...

2013-09-04 17:54:19 319

原创 oozie CDH4和hadoop CDH4整合出现的问题(二)

hadoop版本：hadoop-2.0.0-cdh4.3.0oozie版本：oozie-3.3.2-cdh4.3.0在使用上述版本的hadoop和oozie进行开发时，启动hadoop后，NN节点上的进程有NameNode，ResourceManager，DN节点的进程有DataNode，NodeManager，hadoop启动正常，在上面执行自己写的M/R程序也没问题，但是当使用oo...

2013-09-04 17:41:46 120

原创 oozie CDH4和hadoop CDH4整合出现的问题(一)

最近在使用oozie和hadoop进行开发hadoop版本：hadoop-2.0.0-cdh4.3.0 oozie版本：oozie-3.3.2-cdh4.3.0 在使用oozie执行里面的例子时，oozie在向hadoop提交任务时报出了以下错误：[code="java"]Caused by: com.google.protobuf.ServiceExcepti...

2013-09-04 17:12:40 133

空空如也

空空如也