sanms-CSDN博客

原创 hadoop hive执行count(*)提示OutOfMemoryError: Java heap space

昨天在把hive部署到hadoop2.0 HA MR1集群中的时候，hive执行count(*)出错，日志为：java.lang.Exception: java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.jav

2013-11-15 15:35:02 8349

原创 Hadoop 2.0 HA安装时碰到的问题

安装hadoop2.0 HA碰到的问题1.zookeeper集群无法从 $HOME/zookeeper/bin下启动，后来从/opt/aimcpro/freeware/zookeeper-3.4.5-cdh4.2.1目录下启动成功怀疑还是zookeeper的conf文件设置或者zk_ENV.sh里面的设置有问题2.hadoop从主节点无法format，提示invalid ur

2013-11-14 11:49:03 2685

原创 mysql作为hive元数据库读取时提示communication failure

现象：mysql已安装配置好，$HIVE_CONF_DIR/hive-site.xml中jdbc已配置成mysql的。但是hive命令行进入后，show tables提示·metastore无法读取，查了很久的原因，都查不到，mysql登陆也正常，同事突然说在hive cli中set javax.jdo.option.ConnectionURL看到的结果并不是在hive-site.xml中的配置。

2013-11-14 11:45:14 1028

原创 hadoop scheduler查看问题

在对比了hadoop fair-scheuler和capacity-scheduler之后，决定使用fair-scheduler。因为目前系统没有多个团队之间的资源竞争，更多的是多个任务之间的资源抢占情况，所以选用fair-scheduler效率更高。配置完之后发现无法查看scheduler原有的文档都写着http://younamenode:50030/scheduler，无法打

2013-11-01 15:44:56 912

原创 Jobtracker HA启动时备机jobtracker无法启动，报rpc version mismatch

昨天在重启jobtracker HA的时候碰到怪异问题，备机的jobtracker无法启动备机上的错误日志13/10/29 16:45:53 ERROR mapred.JobTrackerHADaemon: java.net.BindException: Problem binding to [mynamenode01:48023] java.net.BindException: Cann

2013-10-30 16:19:27 1031

转载解密中国互联网

解密中国互联网1、中国互联网的构成如之前冯大辉总结，中国互联网分三个层面：第一层面是媒体上的互联网，也就是大众容易识别和认识的互联网；第二层面是草根互联网，这是中国互联网巨大的组成部分，却极少在公众面前出现；第三层面是黑暗互联网，其实它一直以来，非常巨大，非常恐怖，以至于，往往因为某些疏漏造成了全国性的事件，人们才能窥到冰山一角。第一种，媒体上的互联网，主要的思路是，覆

2013-10-30 16:11:26 684

原创安装rJava包失败处理方法

在linux 进入 R 命令行之后安装Rweibo没有问题，安装Rwordseg分词包的时候提示rJava没有安装，在安装rJava的时候提示出错checking whether JNI programs can be compiled... configure: error: Cannot compile a simple JNI program. See config.log for de

2013-10-11 10:16:37 8112

原创 R linux安装

下载R linux安装包，我是用R-2.15.3http://ftp.ctex.org/mirrors/CRAN/src/base/R-2/tar xvf R-2.15.3.tar.gz进入解压目录./configure(需要安装指定目录需要加 --prefix)make如果make没有出错则继续安装sudo ma

2013-10-10 17:20:06 830

转载 Rweibo-用R语言分析微博内容

原文地址：Rweibo作者：KingJamesRweibo简介：Rweibo是一个新浪微博的R语言SDK，作为library在R环境中调用，对新浪微博提供的接口进行了实现（见新浪微博API），可以进行微博信息获取、用户信息获取、搜索、发表微博等操作。该应用通过OAuth的方式授权，使用者首先需要到新浪微博开放平台申请一个新的应用，获取App Key和App Se

2013-09-30 10:28:51 5843

原创 Samza--基于hadoop的流处理引擎

Samza是近日由LinkedIn开源的一项技术，它是一个分布式流处理框架，专用于实时数据的处理，非常像Twitter的流处理系统Storm。不同的是Samza基于Hadoop，而且使用了LinkedIn自家的Kafka分布式消息系统。组成Samza的三个部分使用hadoop的人都应该很熟悉这个体系架构最大的优点在于和Kafka以及YARN平台比较好的结

2013-09-24 16:28:19 1722

转载 Hadoop-Linux集群批量部署管理工具parallel-ssh(PSSH)的安装与使用

原帖：http://www.linuxidc.com/Linux/2013-08/88547.htm使用pssh的动力源自实验室的测试项目，需要搭建一个200余台机器的集群，前期是32台机器的小集群，Hadoop软件列表中的第一个。起初我自认为装个hadoop集群，改改配置文件，重复32次就完事儿了，工作量也不是很大。但随机测试的推移，我发现，每当需要更改一个参数需要把一个操作

2013-09-18 15:10:45 1548

原创 Hadoop HA MR1配置

mapreduce.framework.name classic The runtime framework for executing MapReduce jobs. Can be one of local, classic or yarn. mapred.ha.jobtracker.id jt1 -------------

2013-09-17 17:07:42 1341

转载数据挖掘最常见的十种方法

下面介绍十种数据挖掘（Data Mining）的分析方法，以便于大家对模型的初步了解，这些都是日常挖掘中经常遇到的算法，希望对大家有用！（甚至有数据挖掘公司，用其中的一种算法就能独步天下）1、基于历史的MBR分析（Memory-Based Reasoning；MBR）基于历史的MBR分析方法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找

2013-09-13 15:52:22 755

原创 hive执行HQL提示出错Error: Java heap space

默认io.sort.mb为100.但是在hql执行的时候hive log提示Java heap space.找了很久的原因，尝试如下：1.在mapred-site.xml中增加mapreduce.task.io.sort.mb参数 mapreduce.task.io.sort.mb 10结果：无效2.在core-site.

2013-09-11 17:40:54 9770 4

转载 HiveQL详解

HiveQL详解HiveQL是一种类似SQL的语言, 它与大部分的SQL语法兼容, 但是并不完全支持SQL标准, 如HiveQL不支持更新操作, 也不支持索引和事务, 它的子查询和join操作也很局限, 这是因其底层依赖于Hadoop云平台这一特性决定的, 但其有些特点是SQL所无法企及的。例如多表查询、支持create table as select和集成MapReduce脚本等, 本节

2013-09-10 14:47:28 1754

转载 Pig性能优化

原文链接：http://www.cnblogs.com/kemaswill/p/3226754.html1. 尽早去除无用的数据MapReduce Job的很大一部分开销在于磁盘IO和数据的网络传输，如果能尽早的去除无用的数据，减少数据量，会提升Pig的性能。 1). 尽早的使用Filter使用Filter可以去除数据中无用的行(Record)，尽早的Filt

2013-09-09 11:45:52 822

转载大数据分析项目中的“最差”实践

大数据分析现在很火。只要你浏览任何IT出版物或者网站，你都能看到商务智能供应商和他们的系统集成合作伙伴推销帮助企业实施和管理大数据分析系统的产品和服务。这些广告和大数据分析的新闻以及供应商匆匆提供的案例研究可能会使你误认为大数据是很容易的事，误认为要成功部署只需要一种特别的技术。如果它是那么简单就好了。当BI供应商乐呵呵地告诉你他们的客户已经成功部署大数据分析项目时，

2013-09-09 11:45:47 967

转载基于常规法则的大数据分析最佳实践

由于出现了新词汇、新技术、新产品和新提供商，“大数据”分析让人很陌生，但是经过检验的数据管理最佳实践方法一样能够在这个仍然属于新兴学科的领域发挥作用。与各种商业智能(BI)和数据仓库一样，专家认为在开始进行大数据分析项目之前，清晰理解组织的数据管理需求和明确策略是非常重要的。大数据分析被广泛地进行讨论，而且各种行业的公司都充斥着新数据源和不断增多的信息。但是，在未明确这样做能够真正

2013-09-09 11:42:54 806

原创 hive job执行出错--提示Execution failed with exit status 2

hive命令行日志：Execution log at: /tmp/hadoop/.logJob running in-process (local Hadoop)Hadoop job information for null: number of mappers: 0; number of reducers: 02013-09-09 11:23:19,115 null map =

2013-09-09 11:35:40 7274

转载 Hadoop的调度器总结

Hadoop的调度器总结随着MapReduce的流行，其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中，有一个组件非常重要，那就是调度器，它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种，分别为：（1）默认的调度器FIFOHadoop

2013-09-09 09:41:14 1051

原创 linux screen命令--类似nohuo

前端时间在做性能测试，当时只是想看下短时间系统的性能，没有用定时任务。这个性能测试需要不同的场景加压，需要开多个窗口，而且还担心网络不稳定，窗口临时关闭了。这时候就用到了screen命令，screen类似nohup，在有些时候却比nohup强大，可以多个screen切换。下面简单介绍下screen命令的用法。1、开启一个终端窗口命令行敲screen命令，开启一个新窗口，在这里，你可

2013-09-08 22:23:26 1931

原创 python解析URL中文关键字

搜索引擎或者APP搜索时，其实生成的http链接中基本都带有UTF8或者其他编码的中文关键字，目前只做了UTF8的，其他编码可以通过字符范围筛选。以下为解析方法：import urllibimport sysreload(sys)sys.setdefaultencoding('utf8')en=urllib.quotede=urllib.unquote

2013-09-08 22:18:44 3826

转载 fuse安装

启动fuse是：1、卸载umount -l $HOME/fuse-dfs -->root用户下操作2、执行$HADOOP_HOME/build/contrib/fuse-dfs/下的startFuse.sh1. 安装fuse：首先去http://fuse.sourceforge.net/上下载和查看如何安装fuse，我安装的fuse是2.8.5版本的，下载2.8.5版本后，

2013-09-08 22:10:29 1994

转载 Hadoop调优

Hadoop调优mapred.tasktracker.map.tasks.maximum 官方解释：The maximum number of map tasks that will be run simultaneously by a task tracker.我的理解：一个tasktracker最多可以同时运行的map任务数量默认值：2优化值：mapred.t

2013-09-06 17:30:40 647

原创 HDFS扩容方法

当hadoop运行一段时间之后，有可能会出现hdfs空间不够，导致数据无法再放入hdfs的情况。可以通过修改data目录的位置来获取更多的空间hadoop dfsadmin -report查看所有节点的空间占用情况在core-site.xml中hadoop.tmp.dir 为新目录如 /mnt/sdbmount/data/tmphdfs-site.xml中

2013-09-06 17:02:19 4921

原创 HBase基本命令及某表无法disable或drop的处理

HBase基本命令下面我们再看看看HBase的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称',

2013-09-06 17:01:26 8964

原创 HIVE在命令行里执行HQL

Usage: hive [-hiveconf x=y]* []* [|] [-S] -i Initialization Sql from file (executed automatically and silently before any other commands) -e 'quoted query string' Sql from comm

2013-09-06 11:32:54 3027

转载 HIVE分析统计结果直接导入mysql数据库

大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中，再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。步骤为 hive>add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.j

2013-09-06 11:24:44 2262

原创 HIVE文件存储格式

HIVE文件存储格式Hive文件存储格式包括以下几类：TEXTFILESEQUENCEFILERCFILEORCFILE其中textfile为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile,ORCfile格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后再

2013-09-06 10:37:14 2446

原创 HIVE元数据库改为mysql

1.先安装mysql，并启动服务2.为Hive建立相应的MySQL账户,并赋予足够的权限,执行命令如下:mysql -uroot -p123456mysql> CREATE USER 'hive' IDENTIFIED BY 'hive';mysql> GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%' WITH GRANT OPTION;mys

2013-09-06 10:27:51 2013

sanms的专栏