- 博客(13)
- 资源 (38)
- 收藏
- 关注
原创 导入数据出错
Error initializing attempt_201209191708_14120_m_000000_0:org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find taskTracker/maintain/jobcache/job_201209191708_14120/job.xml in any of
2012-09-27 23:10:31 2186 9
原创 安装setuptools的问题
我的操作系统是redhat,不同的操作系统用不同的命令就行了。Compression requires the (missing) zlib moduleyum install zlib-devel安装完成后,重新安装python
2012-09-25 19:26:06 1248
原创 hive的元数据表清单
mysql> show tables;+--------------------+| Tables_in_hivemeta |+--------------------+| BUCKETING_COLS | 桶相关信息| CDS || COLUMNS_V2 | 表字段信息| DATABASE_PARAMS |
2012-09-25 17:40:47 1522
原创 hive无法rename表名
最近在做表名重命名的时候,出现了以下问题,运行情况如下: hive> > > > alter table test rename to test2;Invalid alter operation: table new location hdfs://master:8020/user/hive/warehouse/test_db.db/test2 is
2012-09-25 17:07:59 9055
原创 hadoop节点中不关闭防火墙体验
最近新增节点后,导致相关运行程序出现异常。检查下来发现,一个很简单的问题导致,有一个节点运维人员忘记关闭防火墙了。如果不关闭防火墙,有以下几种情况出现:第一:hdfs的web管理页面,打不开该节点的文件浏览页面第二:后台运行脚本(HIVE的),会出现莫名其妙的假死状态第三:在删除和增加节点的时候,会让数据迁移处理时间更长,甚至不能正常完成相关操作第四:不管你做任何操作,都是
2012-09-21 07:56:28 4317
原创 hadoop节点管理体验
最近在做些节点增加、删除操作,以下步骤都是亲自操作,并验证过没有什么问题(hadoop版本1.0.3)hadoop增加节点操作前提操作系统环境已经成功安装完成,步骤如下:第一: master主机里的$HADOOP_HOME/conf下,修改slaves文件,增加新增节点主机名第二:配置免登录设置第三:新增节点启动datanode和tasktracker两个进程
2012-09-18 15:51:31 2301
转载 hadoop mapreduce执行流程
我们以wordcount为例,假设有个6400M的文件,100台hadoop机器(准确地说应该是tasktracker机),默认block大小为64M,这样每台执行map的文件刚好是一个64M的block文件(假设这个分发过程已经完成,同时忽略备份数之类的细节),并且我们使用10个reduce任务来归并文件。Hadoop的mapreducer的执行过程如下:这100台机器上面的map都是并
2012-09-17 16:22:50 699
原创 SAS随记
最近老系统的sas代码在计算过程中,出现了少数据的情况,我经过了几次检查代码后,还是未发现问题。最后在一个资深同事帮助下,发现了问题的原因,但是自己回想起来还是觉得自己细心的程度不够和如何调试SAS代码不够熟练,说明如下:在代码中主要是以下这段代码(敏感地方将略去):data test.top_order_merge2;mergesource.order_sub_1(i
2012-09-13 17:40:25 777
原创 hadoop相关知识点新总结
根据我对hadoop应用的理解,对之前的总结进行了完善,都是些个人看法和总结。我认为整个框架包含如下几个部分:第一部分:hadoop文件系统第二部分:编写自己的MR计算实现第三部分:hadoop的扩展性第四部分:集群管理第五部分:调度系统第六部分:第三方工具使用 第一部分各知识点分布:第一:主要掌握各文件系统的具体实现和使用第二:文件系统基本操作
2012-09-11 15:44:59 1426
原创 关于多网卡读取IP相关信息
最近集群将增加一批双网卡的机器,这时我就突然想到如何获取这些网卡的IP地址。但是第一次尝试用InetAddress没有得到预期结果。运行结果这里使用到本机(MAC OS环境)的/etc/hosts这个文件获取相关IP信息(当然InetAddress获取主机名称处理没有这么简单,这里就不详细说明)// 通过/etc/hosts来获取InetAddress[] adds = I
2012-09-11 13:56:54 1077
转载 EMC颜开分析Dremel原理,如何在3秒内分析1PB数据
上周,InfoQ中文站对Google的大数据分析工具PowerDrill做了简单介绍。今天,我们来看看服务于EMC的大数据专家颜开在博客文章中对Dremel的分析。在这篇文章中,颜开首先提到了Dremel的5个主要特点:Dremel是一个大规模系统。在一个PB级别的数据集上面,将任务缩短到秒级,无疑需要大量的并发。磁盘的顺序读速度在100MB/S上下,那么在1S内处理1TB数据
2012-09-07 10:27:35 1531
转载 Azul开源Zing Jvm
Azul Systems 工程部副总裁和合作创始人Shyam Pillalamarri向InfoQ说明道:我们的部署很大一部分基于开源组件,所以我们认为:“假设我们不能将一些有价值的东西免费提供给开源项目贡献者,他们将一直受限于从Java虚拟机(JVM)视角所看到的内容”,他们将不会考虑额外的用例,或者选择其他能解决了所有内存或扩展性问题、类似Zing的系统。如果这样的话,他们会面临堆占用
2012-09-07 10:26:33 5161
翻译 python for MongoDB部署
两种安装模式,如下(一种是pip,一种是easy_install):We prefer pip to install pymongo on platforms other than Windows:$ pip install pymongoTo get a specific version of pymongo:$ pip install pymo
2012-09-05 17:11:31 1133
J2EE Connector Architecture and Enterprise Application Integration
2009-03-22
Pattern-Oriented+Software+Architecture_resource.management3
2009-01-03
SWT.The.Standard.Widget.Toolkit.Volume.1
2008-12-09
Pattern-Oriented+Software+Architecture_resource.management
2008-11-22
Java-Concurrency-in-Practice
2010-02-01
iPhone Open Application Development
2010-01-30
Database Porgramming With Jdbc And Java 2nd Edition
2009-11-07
Java™ Performance and Scalability Volume 1
2009-10-08
Pattern.Oriented.Software.Architecture.Volume.4
2009-09-05
Game.Programming.with.Python.Lua.And.Ruby
2009-08-25
Parsing Techniques - A Practical Guide
2009-08-15
Modern Compiler Implementation in Java Second Edition
2009-08-09
Garbage Collection Algorithms For Automatic Dynamic Memory Management
2009-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人