2011年09月_jiedushi

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载设置自动清理mysql binlog日志和手动删除的方法

MYSQL主从复制(replication)采用 RBR 模式后，binlog的格式为"ROW"，能解决很多原先出现的主键重复问题。在一个繁忙的master db server上，binlog日志文件增长速度很快，如果不定时清除，硬盘空间很快就会被充满。设置自动清理mys

2011-09-29 12:47:29 6896

原创 hive优化总结

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下: hive.meta

2011-09-22 16:35:46 7504

原创用hive+hdfs+sqoop分析日志的步骤

现在的部分工作是进行日志分析，由于每天的日志压缩前80多G左右，用lzop压缩后10G左右，如果用shell直接进行统计，需要花费很长时间才能完成，而且还需要用java函数对request url进行转换，于是采用hive+hdfs+sqoop方案进行日志统计分析hadoop

2011-09-22 15:58:05 10958 1

转载 Mysql点滴－MYSQL字符数字转换

1.将字符的数字转成数字，比如'0'转成0可以直接用加法来实现例如：将pony表中的d 进行排序，可d的定义为varchar，可以这样解决select * from pony order by (d+0)2.在进行ifnull处理时，比如 ifnull(a/b

2011-09-21 14:48:31 3285

转载 awk是命令还是编程语言

一，什么是awkawk是linux下的一个命令，他对其他命令的输出，对文件的处理都十分强大，其实他更像一门编程语言，他可以自定义变量，有条件语句，有循环，有数组，有正则，有函数等。他读取输出，或者文件的方式是一行，一行的读，根据你给出的条件进行查找，并在找出来的行中进行操作，

2011-09-21 10:46:32 980

转载实例详细说明linux下去除重复行命令uniq

一，uniq干什么用的文本中的重复行，基本上不是我们所要的，所以就要去除掉。linux下有其他命令可以去除重复行，但是我觉得uniq还是比较方便的一个。使用uniq的时候要注意以下二点1，对文本操作时，它一般会和sort命令进行组合使用，因为uniq 不会检查重复的行，除

2011-09-21 10:31:17 3789

转载 hadoop safemode 的设置

解决方法：NameNode在启动的时候首先进入安全模式，如果datanode丢失的block达到一定的比例（1-dfs.safemode.threshold.pct），则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct（缺省值0.

2011-09-21 08:57:29 3967

转载 awk中的NR和FNR的区别

一，NR和FNR的不同NR:表示当前记录数FNR:也表示当前记录数，但是FNR的作用域只在一个文件内.如果重新打开文件,FNR会从1开始.二，实例说明1，测试文件aaa,cccc[root@Blackghost test2]# cat aaa &

2011-09-20 16:17:20 2151

转载 shell字符串操作方法，以及实例

每一种语言都有他独自的字符串操作方法，shell也一样，下面以以例子的方式，简单介绍常用方法。1，取得字符串长度string=abc12342341 //等号二边不要有空格echo ${#string} //结果11e

2011-09-20 16:14:17 1055

转载 shell循环，判断介绍，以及实例

shell的循环主要有3种，for，while，untilshell的分支判断主要有2种，if，case一，for循环#!/bin/bashfor file in $(ls /tmp/test/mytest |grep sh) //for in格式是s

2011-09-20 15:13:40 2009

转载 awk中RS,ORS,FS,OFS区别与联系

学习awk时，一定要记得动手去实践，只有在实践中才能发现问题，以下就我在学习中和实践中的经验，总结一下RS,ORS,FS,OFS的区别和联系。一，RS与ORS1，RS是记录分隔符，默认的分隔符是\n，具体用法看下[root@krlcgcms01 mytest]#

2011-09-20 14:25:23 2702

转载实例说明shell i/o常用重定向

每个打开的文件都会被分配一个文件描述符.stdin (键盘), stdout (屏幕), 和 stderr (错误消息输出到屏幕上)的文件描述符分别是0, 1, 和 2. 对于正在打开的额外文件, 保留了描述符3到9.文件描述符是文件系统为了跟踪这个打开的文件而分配给它的一个

2011-09-20 13:53:49 614

原创 seq用法详解

seq – print a sequence of numbersseq命令的作用就是打印出一串有序的数字,它主要有以下3个参数构成:-f, –format=FORMAT use printf style floating-point FORMAT (defa

2011-09-20 11:43:04 2286

转载 RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x

1、安装MySQL 5.5.x的yum源：rpm -Uvh http://repo.webtatic.com/yum/centos/5/latest.rpm2、安装MySQL客户端的支持包：yum install libmysqlclient15 --enab

2011-09-19 13:15:03 2250

转载 hive中简单介绍分区表

hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段，而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表：create table p

2011-09-15 15:34:12 32757 1

转载 python输出中文

1。在程序头包含：# -*- coding: utf-8 -*-#!/usr/bin/python# -*- coding: utf-8 -*-2。保存的时候，存成utf－8格式，因为python内部用的是unicode编码，而且最好是保存是把bom标志去掉。

2011-09-12 21:40:28 1604

原创 python 去除 list 重复元素

比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))print l2 还有一种据说速度更快的，没测试过两者的速度差别l1 = ['b','c','d','b','c','a'

2011-09-12 20:53:49 31591

转载 CentOS开机自动运行程序的脚本

有些时候我们需要在服务器里设置一个脚本，让他一开机就自己启动。方法如下：cd /etc/init.dvi youshell.sh #将youshell.sh修改为你自己的脚本名编写自己的脚本后保存退出。在编写脚本的时候，请先加入以下注释#add for ch

2011-09-11 14:56:53 50684 1

转载 Python多行注释技巧

Python语言本身是没有注释多行的支持的，如果需要注册多行，可以用一个取巧的方法，就是把需要注释的代码块用三个单引号或者双引号括起来，赋值为一个永远都不会使用的字符串变量，例如：__devilcomment = '''if bCmpLog == "True":

2011-09-10 09:18:48 23892

转载 hive.cli.print.header参数介绍

通过参数hive.cli.print.header可以控制在cli中是否显示表的列名。hive> drop table t04;OKTime taken: 2.177 secondshive> create table t04(id int,name string

2011-09-09 21:43:47 13991

转载 Hadoop关于处理大量小文件的问题和解决方法

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件，那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件，目录和block，在HD

2011-09-08 13:28:52 1033

转载 kill命令用法

1、用kill命令重启ssh进程在修改完/etc/ssh/sshd_config配置文件后，希望重启sshd服务，通常可以用下面的方法：ps aux | grep sshd #查看ssh的进程IDkill -HUP [ID] #重启sshd

2011-09-07 06:48:38 1452

转载 Hadoop Shell命令

调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中

2011-09-05 13:51:19 895

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口，mutation类中增加timestamp参数，可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212)，mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包，经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

Nginx 不能直接执行外部可执行程序，如果要让 Nginx 支持 CGI，可以考虑安装 nginx-fcgi： wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理，它是免费、快速并且可靠的一种解决方案

2009-08-21

js脚本压缩工具（.net版本）

网页中的js脚本文件比较大的时候可以用这个工具进行压缩，减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印，这不仅使"会设计网页就会做网页套打"成为可能，也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件，解决了web客户端精确打印，批量打印，打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人