自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

东杰书屋

多年大数据工作总结,个人的大数据导航https://bigdata.djbook.top/

  • 博客(23)
  • 资源 (12)
  • 收藏
  • 关注

转载 设置自动清理mysql binlog日志和手动删除的方法

MYSQL主从复制(replication)采用 RBR 模式后,binlog的格式为"ROW",能解决很多原先出现的主键重复问题。在一个繁忙的master db server上,binlog日志文件增长速度很快,如果不定时清除,硬盘空间很快就会被充满。设置自动清理mys

2011-09-29 12:47:29 6896

原创 hive优化总结

1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.meta

2011-09-22 16:35:46 7503

原创 用hive+hdfs+sqoop分析日志的步骤

现在的部分工作是进行日志分析,由于每天的日志压缩前80多G左右,用lzop压缩后10G左右,如果用shell直接进行统计,需要花费很长时间才能完成,而且还需要用java函数对request url进行转换,于是采用hive+hdfs+sqoop方案进行日志统计分析hadoop

2011-09-22 15:58:05 10958 1

转载 Mysql点滴-MYSQL字符数字转换

1.将字符的数字转成数字,比如'0'转成0可以直接用加法来实现例如:将pony表中的d 进行排序,可d的定义为varchar,可以这样解决select * from pony order by (d+0)2.在进行ifnull处理时,比如 ifnull(a/b

2011-09-21 14:48:31 3284

转载 awk是命令还是编程语言

一,什么是awkawk是linux下的一个命令,他对其他命令的输出,对文件的处理都十分强大,其实他更像一门编程语言,他可以自定义变量,有条件语句,有循环,有数组,有正则,有函数等。他读取输出,或者文件的方式是一行,一行的读,根据你给出的条件进行查找,并在找出来的行中进行操作,

2011-09-21 10:46:32 980

转载 实例详细说明linux下去除重复行命令uniq

一,uniq干什么用的文本中的重复行,基本上不是我们所要的,所以就要去除掉。linux下有其他命令可以去除重复行,但是我觉得uniq还是比较方便的一个。使用uniq的时候要注意以下二点1,对文本操作时,它一般会和sort命令进行组合使用,因为uniq 不会检查重复的行,除

2011-09-21 10:31:17 3788

转载 hadoop safemode 的设置

解决方法:NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.

2011-09-21 08:57:29 3964

转载 awk中的NR和FNR的区别

一,NR和FNR的不同NR:表示当前记录数FNR:也表示当前记录数,但是FNR的作用域只在一个文件内.如果重新打开文件,FNR会从1开始.二,实例说明1,测试文件aaa,cccc[root@Blackghost test2]# cat aaa &

2011-09-20 16:17:20 2151

转载 shell字符串操作方法,以及实例

每一种语言都有他独自的字符串操作方法,shell也一样,下面以以例子的方式,简单介绍常用方法。1,取得字符串长度string=abc12342341          //等号二边不要有空格echo ${#string}             //结果11e

2011-09-20 16:14:17 1054

转载 shell循环,判断介绍,以及实例

shell的循环主要有3种,for,while,untilshell的分支判断主要有2种,if,case一,for循环#!/bin/bashfor file in $(ls /tmp/test/mytest |grep sh)   //for in格式是s

2011-09-20 15:13:40 2009

转载 awk中RS,ORS,FS,OFS区别与联系

学习awk时,一定要记得动手去实践,只有在实践中才能发现问题,以下就我在学习中和实践中的经验,总结一下RS,ORS,FS,OFS的区别和联系。一,RS与ORS1,RS是记录分隔符,默认的分隔符是\n,具体用法看下[root@krlcgcms01 mytest]#

2011-09-20 14:25:23 2702

转载 实例说明shell i/o常用重定向

每个打开的文件都会被分配一个文件描述符.stdin (键盘), stdout (屏幕), 和 stderr (错误消息输出到屏幕上)的文件描述符分别是0, 1, 和 2. 对于正在打开的额外文件, 保留了描述符3到9.文件描述符是文件系统为了跟踪这个打开的文件而分配给它的一个

2011-09-20 13:53:49 614

原创 seq用法详解

seq – print a sequence of numbersseq命令的作用就是打印出一串有序的数字,它主要有以下3个参数构成:-f, –format=FORMAT use printf style floating-point FORMAT (defa

2011-09-20 11:43:04 2286

转载 RHEL/CentOS 5.x使用yum快速安装MySQL 5.5.x

1、安装MySQL 5.5.x的yum源:rpm -Uvh http://repo.webtatic.com/yum/centos/5/latest.rpm2、安装MySQL客户端的支持包:yum install libmysqlclient15 --enab

2011-09-19 13:15:03 2250

转载 hive中简单介绍分区表

hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table p

2011-09-15 15:34:12 32757 1

转载 python输出中文

1。在程序头包含:# -*- coding: utf-8 -*-#!/usr/bin/python# -*- coding: utf-8 -*-2。保存的时候,存成utf-8格式,因为python内部用的是unicode编码,而且最好是保存是把bom标志去掉。

2011-09-12 21:40:28 1604

原创 python 去除 list 重复元素

比较容易记忆的是用内置的setl1 = ['b','c','d','b','c','a','a']l2 = list(set(l1))print l2 还有一种据说速度更快的,没测试过两者的速度差别l1 = ['b','c','d','b','c','a'

2011-09-12 20:53:49 31591

转载 CentOS开机自动运行程序的脚本

有些时候我们需要在服务器里设置一个脚本,让他一开机就自己启动。方法如下:cd /etc/init.dvi youshell.sh #将youshell.sh修改为你自己的脚本名编写自己的脚本后保存退出。在编写脚本的时候,请先加入以下注释#add for ch

2011-09-11 14:56:53 50684 1

转载 Python多行注释技巧

Python语言本身是没有注释多行的支持的,如果需要注册多行,可以用一个取巧的方法,就是把需要注释的代码块用三个单引号或者双引号括起来,赋值为一个永远都不会使用的字符串变量,例如:__devilcomment = '''if bCmpLog == "True":

2011-09-10 09:18:48 23892

转载 hive.cli.print.header参数介绍

通过参数hive.cli.print.header可以控制在cli中是否显示表的列名。hive> drop table t04;OKTime taken: 2.177 secondshive> create table t04(id int,name string

2011-09-09 21:43:47 13990

转载 Hadoop关于处理大量小文件的问题和解决方法

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HD

2011-09-08 13:28:52 1033

转载 kill命令用法

1、用kill命令重启ssh进程在修改完/etc/ssh/sshd_config配置文件后,希望重启sshd服务,通常可以用下面的方法:ps aux | grep sshd  #查看ssh的进程IDkill -HUP [ID]           #重启sshd

2011-09-07 06:48:38 1452

转载 Hadoop Shell命令

调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中

2011-09-05 13:51:19 895

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口,mutation类中增加timestamp参数,可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212),mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包,经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

nginx-fcgi.txt

Nginx 不能直接执行外部可执行程序,如果要让 Nginx 支持 CGI,可以考虑安装 nginx-fcgi: wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载 所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供 高可用性 、负载均衡 以及基于TCP和HTTP应用的代理,它是免费、快速 并且可靠的一种解决方案

2009-08-21

js脚本压缩工具(.net版本)

网页中的js脚本文件比较大的时候可以用这个工具进行压缩,减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印,这不仅使"会设计网页就会做网页套打"成为可能,也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件,解决了web客户端精确打印,批量打印,打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除