自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (4)
  • 收藏
  • 关注

转载 简单说说python import与from...import....(python模块)

简单说说python import与from...import....(python模块)在python用import或者from...import来导入相应的模块。模块其实就一些函数和类的集合文件,它能实现一些相应的功能,当我们需要使用这些功能的时候,直接把相应的模块导入到

2011-09-29 15:15:18 379

原创 linux zombie进程删除

1、执行ps -auxf2、查找状态为Z的进程id及其父进行id(父进程至1终止,不包括1)3、kill -9 父进程id 状态为Z的id4、重启父进程服务。

2011-09-26 17:02:37 1394

转载 Linux系统性能监控工具

CPU利用率:Linux以及大多数基于UNIX的操作系统都提供了一条命令来显示系统的平均负载(load average):具体的讲,平均负载代表了在1min,5min和15min内可以运行的任务平均数。可运行的任务包括当前正在运行的任务以及虽然可以运行但正

2011-09-26 14:44:59 512

转载 监测 Linux 进程的实时 IO 情况

作为系统管理员和 VPS 服务商,经常会碰到服务器或者 VPS 磁盘 IO 繁忙的时候,VPSee 通常都会用一些工具来检测,其中一个常用的工具就是自己写的 iotop 脚本,可以很方便看到哪个进程在频繁 IO. 上周五收到一位网友的邮件和留言,问到这篇文章:如何查看进程 I

2011-09-26 14:39:40 567

原创 ganglia监控mysql

1下载mySQL监控脚本 http://www.javabloger.com/att/gmetric-mysql.sh ,进行chmod ,让该脚本可执行。2修改脚本中的MySQL 用户名和密码3该脚本54行机器不同需要进行修改(未查明原因),可以在$[ ]和$(

2011-09-26 11:39:16 2393

转载 Hadoop使用常见问题以及解决方法

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序 里面需要打开多个文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对

2011-09-26 10:53:23 794

转载 NoSQL数据库笔谈

NoSQL数据库笔谈appdir , ssv , paper颜开 , v0.2 , 2010.2序思想篇CAP最终一致性变体BASE其他I/O的五分钟法则不要删除数据RAM是硬盘,硬盘是磁带Amdahl定律和Gustafson定律万

2011-09-23 10:22:25 1087

原创 Linux下安装ganglia

ganglia的安装主要有两部分:gmetad和gmond。其中gemtad只安装于监控机器,相当于服务器,用于定时的从gmond获取机器信息,并通过rrdtool将获取到的信息绘制成图形。        服务器端安装gmetad依赖的东西比较多,其中最简单的方法就是通过yu

2011-09-22 16:15:35 1423

转载 CentOS 5.3 下ganglia的安装、配置与测试

介绍:Ganglia监控软件主要是用来监控系统性能的软件,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。支持浏览器方式访问,但不能监控节点硬件技术指标,ganglia

2011-09-21 14:42:58 743

转载 cacti监控系列之一:安装篇---含配置及模版,插件安装

概念:       是一套基于PHP,MySQL,SNMP及RRDTool开发的网络流量监测图形分析工具。它通过snmpget来获取数据,使用 RRDtool绘画图形,它提供了非常强大的数据和用户管理功能,可以指定每一个用户能查看树状结 构、host以及任何一张图,还可以与L

2011-09-21 14:28:49 3752

转载 关于Hadoop结合RDBMS应用的一些思考

最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下。 1、为什么要用Hadoop这个在网上已近有很多的人说过这个问题,我在

2011-09-21 09:36:40 536

转载 hadoop作业调优参数整理及原理

1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中

2011-09-21 09:28:59 339

转载 Hadoop源代码分析(mapreduce.lib.partition/reduce/output)

Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到可能的Combiner做合并,Combiner在系统中并没有自己的基类,而

2011-09-21 09:26:40 381

转载 Hadoop运行mapreduce实例时,抛出错误 All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting…

Hadoop运行mapreduce实例时,抛出错误 All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting… java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx ar

2011-09-21 09:25:53 1458

转载 hadoop海量put时出现的socket超时导致put失败解决方案

当一个HDFS系统同时处理许多个并行的put操作,往HDFS上传数 据 时,有时候会出现dfsclient 端发生socket 链接超时的报错,有的时候甚至会由于这种原因导致最终的put操作失败,造成数据上传不完整。log类似如下:All datanodes  *

2011-09-21 09:25:12 803

转载 hadoop ganglia configuration

作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明http://hi.baidu.com/hovlj_1130/blog/item/e8fe89c3e9a67e160ff47755.html#准备工作

2011-09-16 10:43:12 733

原创 优化算法-寻找最优解

1. 爬山法方法:选择一个随机解,然后生成一个新的解的集合,集合中的解是将该随机解的每个维度进行一定的修改。然后从中选择最低成本的一个解。循环执行。。。改进:随机重复爬山法2.模拟退火法方法:选择一个随机解,然后随机选择一个维度进行修改,若成本降低或者满足一定的概

2011-09-15 18:05:35 6701

转载 linux yum使用

在Centos中yum安装和卸载软件的使用方法安装方法安装一个软件时yum -y install httpd安装多个相类似的软件时yum -y install httpd*安装多个非类似软件时yum -y install httpd php php-g

2011-09-15 10:50:07 340

t_area.sql

涵盖中国省市县镇村数据,总共74W+条记录, 样例数据:740439 INSERT INTO `t_area` VALUES ('659004501504', '四连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740440 INSERT INTO `t_area` VALUES ('659004501505', '五连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740441 INSERT INTO `t_area` VALUES ('659004501506', '六连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行政区划五家渠市兵团一零二团', '5'); 740442 INSERT INTO `t_area` VALUES ('659004501507', '七连', '659004501000', '中国新疆维吾尔自治区自治区直辖县级行

2019-11-14

大数据Spark企业级实战

Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,是Apache软件基金会下所有开源项目中三大顶级开源项目之一。, 在“One Stack to rule them all”理念的指引下,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大数据计算模型统一到一个技术堆栈中,开发者使用一致的API操作Spark中的所有功能;更为重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等四大子框架之间可以在内存中完美的无缝集成并可以互相操作彼此的数据,这不仅打造了Spark在当今大数据计算领域其他任何计算框架都无可匹敌的优势,更使得Spark正在加速成为大数据处理中心首选的和唯一的计算平台。, 《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言编程、Spark常见问题及调优等,并且结合Spark源码细致的解析了Spark内核和四大子框架,最后在附录中提供了的Spark的开发语言Scala快速入门实战内容,学习完此书即可胜任绝大多数的企业级Spark开发需要。, 《大数据Spark企业级实战》从零起步,完全从企业处理大数据业务场景的角度出发,基于实战代码来组织内容,对于一名大数据爱好者来说,《大数据Spark企业级实战》内容可以帮助您一站式地完成从零起步到进行Spark企业级开发所需要的全部核心内容和实战需要。

2016-09-01

设计模式六大原则

设计模式体现的是软件设计的思想, 而不是软件技术, 它重在使用接口与抽象类来解决 各种问题。

2012-02-01

Hive资料整合

hadoop数据仓库应用软件hive。 hive学习资料整合,初学者必备。

2011-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除