自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

东杰书屋

多年大数据工作总结,个人的大数据导航https://bigdata.djbook.top/

  • 博客(20)
  • 资源 (12)
  • 收藏
  • 关注

转载 linux shell 数组建立及使用技巧

linux shell在编程方面比windows 批处理强大太多,无论是在循环、运算。已经数据类型方面都是不能比较的。 下面是个人在使用时候,对它在数组方面一些操作进行的总结。 1.数组定义 [chengmo@centos5 ~]$ a=(1 2 3 4 5)

2011-05-30 00:24:00 2982

转载 linux中comm命令用法

<br />linux系统中comm命令用法详解<br /> linux系统下的comm命令是一个非常实用的文件对比命令。<br />comm命令功能:   选择或拒绝两个已排序的文件的公共的行。<br />comm命令语法:comm [-123] [--help][--version][file1][file2]<br />comm命令参数:<br />  -1   不显示只在第1个文件里出现过的列。<br />  -2   不显示只在第2个文件里出现过的列。<br />  -3   不显示只在第1和第2

2011-05-26 23:21:00 1704 1

转载 在SHELL中执行MYSQL语句

使用shell脚本做日志分析,为了将分析后的结果直接存储到mysql数据库中需要在shell脚本中执行mysql的语句。方法一 将每一步需要执行的语句保存到 tmp.sql 中,最后在使用 mysql -u uname -p pwd  方式执行方法二

2011-05-26 23:10:00 4650

转载 RHEL/CentOS/SL Linux 6.x使用EPEL 6的yum软件源

<br />如果既想获得 RHEL 的高质量、高性能、高可靠性,又需要方便易用(关键是免费)的软件包更新功能,那么 Fedora Project 推出的 EPEL(Extra Packages for Enterprise Linux)正好适合你。EPEL(http://fedoraproject.org/wiki/EPEL) 是由 Fedora 社区打造,为 RHEL 及衍生发行版如 CentOS、Scientific Linux 等提供高质量软件包的项目。装上了 EPEL,就像在 Fedora 上一样,

2011-05-26 22:27:00 9088 5

转载 shell工具 pv (pipe viewer)

写shell对1g多的日志做统计,中间那个慢啊,又没有进度显示,万一脚本写错了,等待时间又白费了现在给大家介绍一个看执行进度的工具—-pv它可以加入到管道中的任意一层,查看数据的通过量安装wget http://pipeviewer.googlecode.co

2011-05-26 19:45:00 3177 1

转载 awk分析nginx日志,获取pv

最近在深入系统运维的事情,从服务器配置、调优、维护,到各种脚本编写。实现自动化智能运维的目标还要很远。从nginx的日志中分析每日有效的pv和各搜索引擎爬虫的请求数。脚本用awk实现。函数库文件 stat_func.sh #!/bin/bashstat_log

2011-05-26 19:23:00 3354

转载 linux下面快速删除大量文件

<br />如果用户有跟我一样,遇到要在linux下面删除大量文件夹的情况,如:需要删除100万个文件或者文件夹。这个时候,我们本来的删除命令rm -rf  * 就不好使了,因为要等待的太久。所以必须要采取一些非常手段。我们可以使用Rsync来实现快速 删除大量文件。<br />先安装rsync.aptitude install rsync<br />建立一个空的文件夹mkdir /root/blank<br />用rsync删除目标目录rsync --delete-before -a -H -v --pr

2011-05-25 13:55:00 5523

转载 Linux Shell实现模拟多进程并发执行

在bash中,使用后台任务来实现任务的“多进程化”。在不加控制的模式下,不管有多少任务,全部都后台执行。也就是说,在这种情况下,有多少任务就有多少“进程”在同时执行。我们就先实现第一种情况:实例一:正常情况脚本———————————————————————————–#

2011-05-25 10:22:00 2803

转载 mysql删除大表更快的drop table办法

<br />曾经发文介绍过,DROP table XXX ,特别是碰到大表时,<br />http://www.mysqlops.com/2011/02/18/mysql-drop-table-%e5%a4%84%e7%90%86%e8%bf%87%e7%a8%8b.html<br />在DROP TABLE 过程中,所有操作都会被HANG住。<br />这是因为INNODB会维护一个全局独占锁(在table cache上面),直到DROP TABLE完成才释放。<br />在我们常用的ext3,ext4,

2011-05-24 13:16:00 1259

转载 Linux 显示IP地理位置 qqwry系列小工具

<br />围绕纯真数据库的一系列小工具qqwry.c,qqwry.h。一个c实现的lib,用来从纯真数据库里获取ip地址信息。下载,文档nali,一组ip查询工具,包括可以让dig,traceroute显示ip地理信息。下载,文档pecl::qqwry,纯真数据库查询的PHP C扩展实现。下载,文档纯真数据库UTF-8版本。转换工具也以开源形式发布,用php实现 <br />nali,名字取自中文“哪里”的拼音。nali包含一组命令行程序,其主要功能就是把一些网络工具的输出的IP字符串,附加上地理位置信息

2011-05-20 16:14:00 1898

转载 php引用&符号详解

<br /> <br />hp的引用(就是在变量或者函数、对象等前面加上&符号)<br />在PHP 中引用的意思是:不同的名字访问同一个变量内容.<br /> <br />变量的引用<br />PHP 的引用允许你用两个变量来指向同一个内容<br />例一:<br /><?php<br />$a="2010";<br />$b =&$a;<br />echo $a;//这里输出:2010<br />echo $b;//这里输出:2010<br />$b="2012";<br />echo $a;//这里$

2011-05-18 09:11:00 20553 1

转载 Using Hive for weblog analysis

 IntroductionI've been playing around with Hadoop since the last fortnight to see how it performs with our weblog data processing jobs (Apache access logs). Right now we're using a blink-and-it-breaks system running a bunch of custom Perl scripts for

2011-05-15 16:40:00 1336

转载 Xshell在按delete,backspace键产生乱码的解决方法

当我们用Xshell登录进入linux后,在普通模式下,对输入进行删除等操作没有问题.而在运行中,按delete,backspace键时会产生^H等乱码问题.这是因为编码不匹配的问题.解决方法:选择File------>Propertise弹出的对话框中,选择Terminal下的Keyboard.如下设置:

2011-05-13 11:59:00 6477

转载 Scribe+HDFS日志收集系统安装方法

1、概述Scribe是facebook开源的日志收集系统,可用于搜索引擎中进行大规模日志分析处理。其通常与Hadoop结合使用,scribe用于向HDFS中push日志,而Hadoop通过MapReduce作业进行定期处理,具体可参见日文日志:http://d.hatena.ne.jp/tagomoris/touch/20110202/1296621133其安装非常复杂,主要是因为其依赖的包,需要设置的环境变量非常多,另外,它与Hadoop兼容不好,安装急需要技巧。目前对于Scirbe的安装方法,网上尽管有

2011-05-13 11:15:00 3820

原创 将awstats分析日志结果导入mysql

利用awstats分析web日志的结果只能导出为html或者pdf文件格式,想要导出为其他文件或者对分析结果再分析,例如对用户行为分析则显得有些力不从心,这就需要用到将awstats分析结果导入到mysql数据库中,利用sql语句进行分析或者导出为其他格式一、 准备工具1  aw2sql 下载地址 http://sourceforge.net/projects/aw2sql/        2   DBI、Data-ShowTable、DBD-mysql (假设你已安装完perl和mysql数据库)DBI(

2011-05-12 14:42:00 2802 1

转载 mysql往infobright中按天导数据脚本

一) infobright安装文档:1)下载infobright并解压到home下wget http://ftp2.ie.netbsd.org/mirrors/download.sourceforge.net/pub/sourceforge/i/project/in/infobright/ICE%20v3.3.1%20for%20Linux/infobright-3.3.1-x86_64-ice.tar.gztar zxvf infobright-3.3.1-x86_64-ice.tar.gzmv info

2011-05-12 08:12:00 2235

原创 优化AWSTATS性能的7个建议

对于一个访问量巨大的网站来说,使用awstats来分析其日志是一件很痛苦的事情,这往往需要耗费很多时间才能得到一个结果,偶尔还会让机器内存耗尽。在awstats的文档中,找到几个关于性能优化的建议,如下:关掉DNSLookup(DNSLookup不能设置为1). 虽然这样你会丢失一些关于访问者的国家信息,但是我觉得这无关紧要,大部分网站的访问者集中在国内。这样能给awstats性能带来小小提升。 小心使用这三个参数: URLWithQuery, URLReferrerWithQuery ,URLWithAn

2011-05-09 11:06:00 1825

转载 AWStats的千万级日志解决方案

<br />awstats在进行日志统计时,<br />命令行统计增加: -databasebreak=day <br />报表输出时增加: &databasebreak=day&day=DD <br />即可按天进行统计, 解决按月统计,归档数据过大导致统计过慢/失败的问题。<br />问题:<br />很多网站在流量从10万级增加到百万级以后就放弃了awstats作为统计,具体表现就是到月底的时候,统计数据会运行1天都运行不完。于是就改为webalizer或者analog了。其实这并非awstats统计

2011-05-09 11:02:00 1212

转载 AWSTATS性能优化

<br />awstats是一款日志分析统计程序, 深受广大群众的喜爱。 其拥有较好性能以及丰富的分析结果。但是对于一些大访问量的网站而言,其统计速度仍然远远显得不够。<br /><br />之前看过awstats官方的优化建议 awstats benchmark(中文翻译在这里), 除了DNSLookup此参数影响较大外,其他的一些参数优化并不能带来非常明显的性能提升,当然这些也是有必要去做的。<br /><br />awstats官方给出的建议是当访问量超过 4,000,000/月时,推荐你使用Anal

2011-05-09 10:58:00 1149

转载 ESI+varnish页面片段缓存

<br />对于片段缓存,业界有成熟的解决方案,还有一个所谓的W3C标准:ESI(Edge Side Include) 。<br /> <br />ESI本身没有什么,只是一个XML的标签集合。ESI和SSI(Server Side Include)很相似,做过ASP开发的都熟悉这么一个标签:<!--#include src="header.inc" --><br />IIS碰到这么一个标签后,会把header.inc里面的东西合并到当前的页面,这样做的好处是header.inc本身可以复用了,你可以在多个

2011-05-09 08:32:00 5900

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口,mutation类中增加timestamp参数,可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212),mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包,经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

nginx-fcgi.txt

Nginx 不能直接执行外部可执行程序,如果要让 Nginx 支持 CGI,可以考虑安装 nginx-fcgi: wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载 所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供 高可用性 、负载均衡 以及基于TCP和HTTP应用的代理,它是免费、快速 并且可靠的一种解决方案

2009-08-21

js脚本压缩工具(.net版本)

网页中的js脚本文件比较大的时候可以用这个工具进行压缩,减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印,这不仅使"会设计网页就会做网页套打"成为可能,也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件,解决了web客户端精确打印,批量打印,打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除