2011年09月_dy_252

12月 11月 10月 09月 08月 07月 06月 03月 02月 01月

转载简单说说python import与from...import....(python模块)

简单说说python import与from...import....(python模块)在python用import或者from...import来导入相应的模块。模块其实就一些函数和类的集合文件，它能实现一些相应的功能，当我们需要使用这些功能的时候，直接把相应的模块导入到

2011-09-29 15:15:18 386

原创 linux zombie进程删除

1、执行ps -auxf2、查找状态为Z的进程id及其父进行id（父进程至1终止，不包括1）3、kill -9 父进程id 状态为Z的id4、重启父进程服务。

2011-09-26 17:02:37 1427

转载 Linux系统性能监控工具

CPU利用率：Linux以及大多数基于UNIX的操作系统都提供了一条命令来显示系统的平均负载(load average):具体的讲，平均负载代表了在1min,5min和15min内可以运行的任务平均数。可运行的任务包括当前正在运行的任务以及虽然可以运行但正

2011-09-26 14:44:59 527

转载监测 Linux 进程的实时 IO 情况

作为系统管理员和 VPS 服务商，经常会碰到服务器或者 VPS 磁盘 IO 繁忙的时候，VPSee 通常都会用一些工具来检测，其中一个常用的工具就是自己写的 iotop 脚本，可以很方便看到哪个进程在频繁 IO. 上周五收到一位网友的邮件和留言，问到这篇文章：如何查看进程 I

2011-09-26 14:39:40 574

原创 ganglia监控mysql

1下载mySQL监控脚本 http://www.javabloger.com/att/gmetric-mysql.sh ，进行chmod ，让该脚本可执行。2修改脚本中的MySQL 用户名和密码3该脚本54行机器不同需要进行修改（未查明原因），可以在$[ ]和$(

2011-09-26 11:39:16 2423

转载 Hadoop使用常见问题以及解决方法

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对

2011-09-26 10:53:23 814

转载 NoSQL数据库笔谈

NoSQL数据库笔谈appdir , ssv , paper颜开 , v0.2 , 2010.2序思想篇CAP最终一致性变体BASE其他I/O的五分钟法则不要删除数据RAM是硬盘,硬盘是磁带Amdahl定律和Gustafson定律万

2011-09-23 10:22:25 1143

原创 Linux下安装ganglia

ganglia的安装主要有两部分：gmetad和gmond。其中gemtad只安装于监控机器，相当于服务器，用于定时的从gmond获取机器信息，并通过rrdtool将获取到的信息绘制成图形。服务器端安装gmetad依赖的东西比较多，其中最简单的方法就是通过yu

2011-09-22 16:15:35 1444

转载 CentOS 5.3 下ganglia的安装、配置与测试

介绍：Ganglia监控软件主要是用来监控系统性能的软件，如：cpu 、mem、硬盘利用率，I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。支持浏览器方式访问，但不能监控节点硬件技术指标，ganglia

2011-09-21 14:42:58 751

转载 cacti监控系列之一：安装篇---含配置及模版，插件安装

概念：是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具。它通过snmpget来获取数据，使用 RRDtool绘画图形，它提供了非常强大的数据和用户管理功能，可以指定每一个用户能查看树状结构、host以及任何一张图，还可以与L

2011-09-21 14:28:49 3786

转载关于Hadoop结合RDBMS应用的一些思考

最近一段时间一直在从事和hadoop相关的工作，主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间，我对于RDBMS和Hadoop的结合应用有了一些自己的看法，写出来大家共同探讨一下。 1、为什么要用Hadoop这个在网上已近有很多的人说过这个问题，我在

2011-09-21 09:36:40 558

转载 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中

2011-09-21 09:28:59 350

转载 Hadoop源代码分析（mapreduce.lib.partition/reduce/output）

Map的结果，会通过partition分发到Reducer上，Reducer做完Reduce操作后，通过OutputFormat，进行输出，下面我们就来分析参与这个过程的类。Mapper的结果，可能送到可能的Combiner做合并，Combiner在系统中并没有自己的基类，而

2011-09-21 09:26:40 410

转载 Hadoop运行mapreduce实例时,抛出错误 All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting…

Hadoop运行mapreduce实例时,抛出错误 All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting… java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx ar

2011-09-21 09:25:53 1480

转载 hadoop海量put时出现的socket超时导致put失败解决方案

当一个HDFS系统同时处理许多个并行的put操作，往HDFS上传数据时，有时候会出现dfsclient 端发生socket 链接超时的报错，有的时候甚至会由于这种原因导致最终的put操作失败，造成数据上传不完整。log类似如下：All datanodes *

2011-09-21 09:25:12 870

转载 hadoop ganglia configuration

2011-09-16 10:43:12 745

原创优化算法-寻找最优解

1. 爬山法方法：选择一个随机解，然后生成一个新的解的集合，集合中的解是将该随机解的每个维度进行一定的修改。然后从中选择最低成本的一个解。循环执行。。。改进：随机重复爬山法2.模拟退火法方法：选择一个随机解，然后随机选择一个维度进行修改，若成本降低或者满足一定的概

2011-09-15 18:05:35 6962

转载 linux yum使用

在Centos中yum安装和卸载软件的使用方法安装方法安装一个软件时yum -y install httpd安装多个相类似的软件时yum -y install httpd*安装多个非类似软件时yum -y install httpd php php-g

2011-09-15 10:50:07 346

涵盖中国省市县镇村数据，总共74W+条记录，样例数据：740439 INSERT INTO `t_area` VALUES ('659004501504', '四连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740440 INSERT INTO `t_area` VALUES ('659004501505', '五连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740441 INSERT INTO `t_area` VALUES ('659004501506', '六连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740442 INSERT INTO `t_area` VALUES ('659004501507', '七连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行

2019-11-14

Hive资料整合

hadoop数据仓库应用软件hive。 hive学习资料整合，初学者必备。

2011-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

dy_252的专栏