- 博客(21)
- 资源 (38)
- 收藏
- 关注
原创 hadoop运行时datanode突然挂掉
今天检查发现有台datanode的节点挂掉,报错信息如下:2012-10-31 01:06:37,661 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(192.168.2.29:50010, storageID=DS-257855051-192.168.2.29-50010-134786
2012-10-31 21:47:14 7370 12
原创 Library not loaded: libmysqlclient.18.dylib in OS X
在python引用MySQLdb模块后,报错信息如下:Library not loaded: libmysqlclient.18.dylib这个跟在liunx下面报错是一样的,解决方式也一样。不过就是变量名称不同,在liunx下是LD_LIBRARY_PATH而在MAC OS下面是DYLD_LIBRARY_PATH建议配置在.bash_profile文件里即可。就能
2012-10-31 15:46:07 7088
转载 Mac下MySql卸载方法
mac下mysql的DMG格式安装内有安装文件,却没有卸载文件……很郁闷的事。网上搜了一下,发现给的方法原来得手动去删。很多文章记述要删的文件不完整,后来在stackoverflow这里发现了一个遗漏的地方,所以将完整版记述在这里,以供查阅。先停止所有mysql有关进程。sudo rm /usr/local/mysqlsudo rm -rf /usr/local/mysql*
2012-10-31 15:06:20 865
原创 mysql安装在MAC OS上面
去MySql官网下MySQL mysql-5.5.28-osx10.6-x86_64.tar.gzhttp://dev.mysql.com/downloads/mysql/5.1.html 记住得是64位的(因为我使用的是64位的操作系统)。下载之后解压,然后在terminal里敲命令吧:$ sudo mv mysql-5.1.45-osx10.6-x86_64
2012-10-31 12:11:52 2700 2
原创 MacOS X服务管理
用launchctl命令,查看全部运行进程。launchctl unloadlaunchctl loadlaunchctl stop
2012-10-31 11:52:49 929
转载 hadoop配置运行错误总结(1)
感觉这位兄台总结还蛮好的,所以特把这两篇转帖过来,其中第十一点总结还是来自我的博客总结,嘿嘿。 新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助。一、hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下Incompatible namespaceIDS i
2012-10-30 17:55:22 6478
转载 hadoop配置运行错误总结(2)
十二、如果遇到如下错误:FAILED java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI:***就是URI里边出现了不允许出现的字符,比如冒号:之类的,操作系统不允许的文件命名字符。详细的可以根据提示的部分(星号部分)来进行grep匹配查看。消除
2012-10-30 17:46:32 5387 5
原创 Max block location exceeded for split
最近hive执行报如此的警告,然后hive进程死掉了,很长时间不运行。通过查看日志发现有以下这样的警告信息:2012-10-24 06:26:41,722 [Main Thread] WARN split.JobSplitWriter (JobSplitWriter.java:writeOldSplits(161)) - Max block location exceeded for s
2012-10-30 10:41:41 3719
原创 数据采集严重丢失数据随记
最近在统计中,发现了数据流在流转的过程里,出现了严重的丢失数据的情况。我们这边数据采集因为历史原因(处理比较繁琐),采用的是awk的方式在进行处理。而awk调用的外部函数只能用命令行的方式。而就是命令行调用后,没有做close的清理操作,导致了临时变量缓存起来,也就影响了最终数据不一致。
2012-10-23 17:58:51 967
原创 hadoop集群运行异常故障描述
今天上午在正常操作hadoop的时候,突然发现所有的节点都连不上,然后在hadoop的简单管理页面上所有节点都是Dead Nodes。检查各节点日志发现:namenode和jobtracker都连不上了,各节点报错信息如下:java.net.ConnectException: Call to master/XXX.XXX.XXX.XXX:XXXX failed on connection
2012-10-22 11:36:00 2233 3
转载 JDK7 AIO (非阻塞IO)实现大并发TCPServer和TCPClient
JDK7 虽然已经发布了一段时间了,但是无奈,AIO相关介绍,尤其是靠谱儿的介绍实在是太少了。兄弟花了些时间,整理成册,希望对learner有些帮助。 epoll成为Linux下开发大并发web 服务器的首选已经好多年了,java世界里,直到JDK 7的AIO出现才用上了这个feature。哎!不过亡羊补牢,为时未晚,下面就看下用AIO开发一个简单的TCP Server和TCP C
2012-10-18 17:05:01 21922 6
转载 Linux TCP/IP Tuning for Scalability
Hi there! I’m Philip (@bluesmoon), the CTO of LogNormal. We’re a performance company, and performance and scalability go hand in hand. Better scalability results in more consistent performance and a
2012-10-18 10:20:30 1600
原创 关于hive同一个脚本运行多次而每次结果都不相同
最近在新的统计脚本中发现了,同一个脚本运行多次而每次结果都不相同的场景。今天好像找到了原因,为了保险起见,先测试运行几天后再做决定。2012-10-18号 通过昨晚的运行,结果正常了。导致此原因的情况如下:首先该脚本执行的时候涉及到的记录有8千多万,在执行的过程当中,map=100%的时候,过一会又降下来了,变成map=97%这样,然后再升到map=100%,反复有两三次。
2012-10-17 17:45:51 2951 2
翻译 python的Pattern模块
patternPattern is a web mining module for the Python programming language.It bundles tools for data retrieval (Google + Twitter + Wikipedia API, web spider, HTML DOM parser), text analysis (
2012-10-16 10:31:09 6260 2
翻译 Python performance optimization
Python performance optimizationPerformance optimization – making a program run faster – is closely related to refactoring. Refactoring makes existing source code more readable and less com
2012-10-16 10:17:17 1127
原创 Eclipse下同一个项目如何适应多语言
目前在开发过程中,同一个项目需要使用到多个语言的问题,如果创建不同的项目有需要进行整合,非常不方便,后来想如何在同一个项目下进行多语言交互式开发。通过对eclipse的研究找到了相应的解决方式,特分享之。为什么有这样的想法,是因为在使用的hive过程中,针对不同的业务场景,有java代码编写udf,有python代码处理脚本等,如果分成不同的项目进行,在后期进行整合有觉得不方便,如何就
2012-10-15 14:54:28 3449
转载 Hadoop生态图谱
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。这一切,都起源自Web数据爆炸时代的来临数据抓取系统 - Nutch海量数据怎么存,当然是用分布式文件系统 - HDFS数据怎么用呢,分析,处理MapReduce框架,让你编写代码来实现对大
2012-10-12 17:53:12 1298
转载 Ubuntu下编译安装R全记录
Ubuntu下安装R很方便,可以在软件管理中心搜索r-base直接安装,也可以将CRAN的相关目录添加到源,然后通过apt-get安装:1sudo apt-get install r-base 不过如果想清楚地知道R安装过程中的细节并控制相关的设置,可以采用手工编译.tar.gz的方式安装。 首先需要到CRAN上下载R的
2012-10-12 16:57:34 3775
转载 无穷大和NaN
在进行数据统计中,对无穷大和NaN的理解很重要,特转贴一个基本概念。 当指数E为全1时,IEEE 754规定此类存储作为特别使用,而不是普通数据。 无穷大 E=255 M=0时,用作无穷大(或Infinity、∞)。根据符号不同,又有+∞、-∞。 无穷大可以由算术运算得出,下面是有关无穷大的几个运算示例: 1/∞ = 0, -1/∞
2012-10-12 16:50:39 3723 1
原创 hive开发环境搭建体验
最近为了规范hadoop团队的开发流程,所以已经在Eclipse里进行相关的hive开发工作。但是目前在运行hive的时候,有几个问题需要注意下:第一个问题:直接运行CliDriver类报错,信息如下:WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apach
2012-10-09 15:26:33 5299 12
J2EE Connector Architecture and Enterprise Application Integration
2009-03-22
Pattern-Oriented+Software+Architecture_resource.management3
2009-01-03
SWT.The.Standard.Widget.Toolkit.Volume.1
2008-12-09
Pattern-Oriented+Software+Architecture_resource.management
2008-11-22
Java-Concurrency-in-Practice
2010-02-01
iPhone Open Application Development
2010-01-30
Database Porgramming With Jdbc And Java 2nd Edition
2009-11-07
Java™ Performance and Scalability Volume 1
2009-10-08
Pattern.Oriented.Software.Architecture.Volume.4
2009-09-05
Game.Programming.with.Python.Lua.And.Ruby
2009-08-25
Parsing Techniques - A Practical Guide
2009-08-15
Modern Compiler Implementation in Java Second Edition
2009-08-09
Garbage Collection Algorithms For Automatic Dynamic Memory Management
2009-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人