-早起的码农-CSDN博客

转载 Infobright构架分析

使用infobright很长时间了，真正的infobright架构还不太了解，下面文章很不错，转一下markInfobright的总体构架图如下:　　　　如上图所示，Infobright采用了和MySQL一致的构架，分为两层。上层是服务及应用管理，下层是存储引擎。Infobright的默认存储引擎是brighthouse，但是Infobright还可以支持其他的存储引擎，比如MyISAM、MRG_

2013-07-06 08:01:23 1919

原创互联网公司结构浅谈

个人觉得互联网公司比较重要的几个方面：技术产品技术产品也是互联网公司一个很重要的部门，互联网公司需要大量的人才，要懂的用户需要什么，要懂得给用户友好的体验，要用能最优秀的技术实现让产品更有竞争力。技术产品是一个公司坚实的根基。内容运营内容运营一看就会明白，互联网好多产品，比如门户网站每天发布的新闻，视频网站发布的新视频，购物网站发布的新产品等等。都是基于内容的，没有优质

2013-07-05 23:28:58 2376

原创 Perl中DBI和DBD-mysql模块的安装

一、DBI的安装wget http://www.cpan.org/modules/by-module/DBD/DBI-1.604.tar.gztar -zxvf DBI-1.604.tar.gzcd DBI-1.604perl Makefile.PLmakemake testmake install二、DBD的安装 yum -y intall mysql-devel注意mysql的环境变量，若没

2013-06-27 11:26:30 7239

原创 Mysql主从搭建及Mysql运维相关命令

1，安装mysql，方式很多，rpm方式安装yum -y install mysql-server mysql-devel mysql mysql-bench mysql-test2 ,启动 /etc/init.d/mysqld start3,master编辑/etc/my.cnf# 确保有如下行server-id = 1log-bin=mysql-binbinlog-do-db=mysq

2013-06-23 13:28:05 2767

原创 QPS、PV和需要部署机器数量计算公式

QPS每秒查询率(Query Per Second)每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准，在因特网上，作为域名系统服务器的机器的性能经常用每秒查询率来衡量。术语说明：QPS = req/sec = 请求数/秒【QPS计算PV和机器的方式】QPS统计方式 [一般使用 http_load 进行统计]QPS = 总请求数 / ( 进程总数 * 请求时间 )QPS:

2013-05-30 16:41:07 2657

转载 28个Unix/Linux的命令行神器

原文链接：http://coolshell.cn/articles/7829.html下面是Kristóf Kovács收集的28个Unix/Linux下的28个命令行下的工具（原文链接），有一些是大家熟悉的，有一些是非常有用的，有一些是不为人知的。这些工具都非常不错，希望每个人都知道。本篇文章还在Hacker News上被讨论，你可以过去看看。我以作者的原文中加入了官网链接和一些说明。dstat

2013-05-24 18:28:32 1823

原创 Nginx反向代理以及配置优化

下面配置包含了，nginx配置的一个比较全面的反向代理的例子：user www wwwworker_processes 8;events { use epoll; worker_connections 10240;}pid /opt/work/log/nginx.pid;error_log /dev/null error;

2013-05-05 13:48:26 3333

转载 Linux CURL的安装和使用

--获得安装包，从网上直接下载或者其他途径，这里直接wget# wget http://curl.haxx.se/download/curl-7.17.1.tar.gz--解压到当前目录# tar -zxf curl-7.17.1.tar.gz--进入解压后的目录内# cd curl-7.17.1--配置，指定安装的目录，这里是“/usr/local/curl”# ./configure --pr

2013-03-27 22:38:25 1789

原创 nslookup命令

nslookup命令用于查询DNS的记录，查看域名解析是否正常，在网络故障的时候用来诊断网络问题。1、直接查询这个可能大家用到最多，查询一个域名的A记录。nslookup domain [dns-server]如果没指定dns-server，用系统默认的dns服务器。2、查询其他记录直接查询返回的是A记录，我们可以指定参数，查询其他记录，比如AAAA、MX等。nslookup -qt=type d

2013-03-27 22:31:28 1804

转载基于eclipse的reviewboard插件

ReviewBoard是一款开源的代码review工具，包括服务器端程序（reveiwboard）和客户端命令行（RBTools）。用户可以通过RBTools的一些列命令在客户端提交request,但是使用和安装都有很多不便。Tao-ReviewBoard是淘宝开发的基于eclipse的reviewboard插件，能很好的解决安装和使用的问题。这个插件已经在淘宝使用近一年，现把工具开源，希望有更多

2013-02-20 16:14:18 5164

原创递归实现两个二叉树的比较

废话不说，上代码package com.alan.basic;import com.alan.basic.Tree.Node;/** * 二插树 * * @author alan * */class Tree { Node root; public Tree() { root = null; } pu

2012-10-27 11:04:48 2226

转载 “结巴”分词：做最好的Python分词组件

中文分词是中文文本处理的一个基础性工作，然而长久以来，在Python编程领域，一直缺少高准确率、高效率的分词组件。结巴分词正是为了满足这一需求。在线演示：http://209.222.69.242:9000/ 特性：支持两种分词模式：默认模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎。用法：全自动安装：easy_install j

2012-10-09 11:45:51 3841

原创 Hadoop集群机架感应配置

首先在core-site.xml中配置如下参数： topology.script.file.name /opt/hadoop/bin/rackawareness.py rackawareness.py脚本内容如下 #!/usr/bin/pythonimport sysfrom string import joinDEFAULT_RACK = '/default/rack0';R

2012-10-05 21:21:29 2714

转载 Linux的inode的理解

文件名 -> inode -> device block 转自：http://www.ruanyifeng.com/blog/2011/12/inode.htmlhttp://blog.s135.com/post/295/ http://hi.baidu.com/leejun_2005/blog/item/d9aa13a53b3af6e99152ee7e.html一

2012-09-02 19:56:06 1727 2

原创 Hbase基于Mapreduce的编程

小试牛刀，将mapreduce的输出结果保存到大型分布式数据库中HBase中，一个例子，求各url的访问pv数据,由于用到rcfile格式需要导入hive-exce包，还需要加载hbase包，如果这两个包都已经被集群管理员放到各节点的hadoop/lib下那就可以省去这一步，废话不说，干货，看代码：package test.hbase;import java.io.IOException;

2012-08-26 20:50:33 3363 1

原创 Mapreduce中的RCFile输出RCFileOutputFormat实现及其应用

自定义实现RCFileOutputFormat.java import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hado

2012-08-26 20:39:30 5466 3

原创 Mapreduce中的RCFile输入RCFileInputFormat实现及其应用

基于旧的mapreduce的api的输入格式在hive中已有实现，在org.apache.hadoop.hive.ql.io下，下面代码是根据其源码自己实现的新mapreduce api接口。上代码：RCFileInputFormat.java import java.io.IOException;import org.apache.hadoop.hive.serde2.columnar.Byt

2012-08-26 20:11:00 5160 1

原创安装包时自动跳过提示的方法

设置more读取文件的行数位10000，并使用yes命令自动回答安装程序。export MORE=10000sh jdk-6u18-linux-i586.bin /dev/nullyesEOF

2012-08-17 22:13:57 3702 1

原创 awk ARGIND

ARGC The number of command line arguments (does not include options to gawk, or the program source). 命令行参数的个数ARGIND The index in ARGV of the current file being proc

2012-08-17 22:10:43 11459

原创 hive UDF实现一个字符串解码函数

其实hive的udf 是比较容易实现的，只需要继承UDF,实现其evaluate（）方法，代码如下。@Description(name = "decoder_url", value = "_FUNC_(url [,code][,count]) - decoder a URL from a String for count times using code as encoding schem

2012-07-26 15:31:44 6105 1

原创 HIVE UDAF和UDTF实现group by后获取top值

先自定义一个UDAF,由于udaf是多输入一条输出的聚合，所以结果拼成字符串输出，代码如下：public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map counts; private int limit;

2012-07-26 14:52:57 4900

原创实现mapreduce多文件自定义输出

普通maprduce中通常是有map和reduce两个阶段，在不做设置的情况下，计算结果会以part-000*输出成多个文件，并且输出的文件数量和reduce数量一样，文件内容格式也不能随心所欲。这样不利于后续结果处理。在hadoop中，reduce支持多个输出,输出的文件名也是可控的，就是继承MultipleTextOutputFormat类，重写generateFileNam

2012-07-13 14:30:13 8557 5

转载关于UserCF和ItemCF的那点事

UserCF和ItemCF是协同过滤中最为古老的两种算法，在top-N的推荐上被广泛应用。这两个算法之所以重要，是因为他们使用了两个不同的推荐系统基本假设。UserCF认为一个人会喜欢和他有相同爱好的人喜欢的东西，而ItemCF认为一个人会喜欢和他以前喜欢的东西相似的东西。这两个假设都有其合理性。根据我的测试，用UserCF和ItemCF做出的推荐列表中，只有50%是一样的，还有50%完全不同。但

2012-06-02 13:52:20 4941

原创 Hive深入应用总结

记录下官方文档上讲的比较少，觉得有用的hive相关知识,绝对干货。命令：表明tb1describe extended tb1;返回表tb1字段，存储格式类型，位置，修改时间等等关于表的详细信息show functions;显示可以用的函数列表，包括可用的udf函数。describe function length; 返回length函数的说明，执行输出length(str)

2012-06-02 13:31:44 3604 1

原创 shell中获取两个日期的间隔时间

获取昨天天所在季度的第一天，到昨天的日期间隔#!/bin/shday=`date -d "1 days ago " "+%Y%m%d"`;year=`expr substr ${day} 1 4`;month=`expr substr ${day} 5 2`;s_date=$year"0101"if [ "$month" == "01" ] || [ "$month" == "02"

2012-06-02 12:46:14 2576

转载 Youtube视频推荐算法：从10页论文到4页论文的变迁

所以说豆瓣广播是个好东西，长久以来已经怠于主动关注paper的我，每次都能通过我那些专业敬业的友邻们发现有意思的文章或话题，知识因分享而伟大！而这一次，这篇来自youtube的4页论文[1]，最初是通过Chen_1st同学的博客介绍知道的。追溯过去，又找到了Greg Linden的评荐博客。这篇文章很新，以至于我根本找不到免费的全文下载，于是很感谢zibuyu博士帮了一忙，还把youtube在08

2012-05-16 23:09:15 1629

原创 shell中的数据计算

1.exprexpr命令可不光能计算加减乘除哦，还有很多表达式，都可以计算出结果，不过有一点需要注意，在计算加减乘除时，不要忘了使用空格和转义截取字符串t0=`date '+%s%N'`;t0=`expr substr ${t0} 1 13`;相减expr $t2 - $t1乘expr 2 \* 3取模expr 14 % 9 获取字符串长度expr

2012-04-21 19:34:26 1759

原创 python字典数组排序实现

python对容器内数据的排序有两种，一种是容器自己的sort函数，一种是内建的sorted函数。sort函数和sorted函数唯一的不同是，sort是在容器内排序，sorted生成一个新的排好序的容器eg数组排序： L=[5,2,3,1,4].sort: L.sort()sorted(...) sorted(iterable, cmp=None, key=None,

2012-04-21 19:20:56 7233 5

原创 mutt实现linux下发送邮件

mutt是linux下的一个email程序，一般系统会自带。首先mutt -v如果安装直接可以使用，否则yum install mutt，不支持yum的linux版本，安装参考http://www.mutt.org/ 发送带附件的邮件：echo "channel report"|mutt -s 'report' -a /data/channelxlsexport/Data

2012-04-21 19:03:46 1879

转载 mysql清除binlog

mysql开启BINGLOG后日志文件增长比较快，很快占满磁盘空间。通过以下几种方式删除日志文件：一、设置日志保留时长expire_logs_days自动删除查看当前日志保存天数：show variables like ‘%expire_logs_days%’;这个默认是0，也就是logs不过期，可通过设置全局的参数，使他临时生效：set globa

2012-04-01 11:13:37 2367

原创删除数据库重复记录

删除数据库重复记录，删除id最小的那个delete minutes as a from minutes as a,(select *,min(id) from minutes GROUP BY time,cateid,p2pbytes,cdnbytes HAVING count(1)>1) as bwhere a.time=b.time and a.cateid = b.cateid

2012-03-19 18:20:50 1589

原创 mapreduce程序reduce输出控制

1，在hadoop中，reduce支持多个输出,输出的文件名也是可控的，就是继承MultipleTextOutputFormat类，重写generateFileNameForKey方法public class LzoHandleLogMr extends Configured implements Tool { static class LzoHandleLogMapper extend

2012-02-25 22:01:38 5373

原创 hive中lzo文件map不分块问题

1,确保创建索引$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog 2，创建hive表时需要在后面指定format格式SET FILEFORMAT

2012-02-24 15:51:44 2502

转载 Facebook数据仓库揭秘：RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数

2012-02-22 22:52:02 1967

转载 MapReduce 编程模型在日志分析方面的应用

MapReduce 编程模型简介随着信息化的进一步加深，在各个领域，如电信、交通、金融、零售、航天、医药等，数据量级都呈现快速增长趋势。如何高效并且无误地存储、分析、理解以及利用这些大规模数据，成为一个关键性问题。为了应对大规模数据处理的难题，MapReduce 编程模型应运而生。Google 提出的这一模型，由于良好的易用性和可扩展性，得到了工业界和学术界的广泛支持。Hadoop，Map

2012-01-10 14:31:08 1854

原创 hadoop集群lzo的安装

主要步骤：1，安装和更新gcc、ant(系统已经安装的话，略去下面步骤)yum -y install gcc gcc-c++ autoconf automakewget http://labs.renren.com/apache-mirror//ant/binaries/apache-ant-1.8.2-bin.tar.gztar -jxvf apache-ant-1.8.2-

2012-01-05 23:01:01 3421 1

原创 Nginx实现大日志文件切割

方式一：nginx cronolog日志分割配置文档，根据下面方法，每分钟分割一次NGINX访问日志。1.nginx日志配置 access_log access_log /data/access_log_pipe main; 2.先创建一个命名管道 mkfifo /www/log/access_log_pipe 3.配置cronolog： nohup cat

2011-12-18 20:57:57 14777 1

原创我的2011-在迷惘中成长

我的2011，有过希望有过失望，有过冲动有过麻木；有欢笑也有泪水，有收获也有付出；继续走继续迷失，2011，我在迷惘中成长。 2011对我来说是很平淡的一年，一个人走过，一路的艰辛，但总归还是有收获的，让我懂得了很多，也让我淡定了许多，感情上也没有什么好谈的了。工作上对我来说还是挺有收获的一年，起码现在有了一个明确的方向，一个自己可以看到希望的方向。相比年初时自己的情况，我算是

2011-12-17 00:36:42 6262 9

原创 Hadoop in China2011参会总结

参加Hadoop in China2011已经是两周前的事了，由于最近比较忙也没有对参会的内容进行总结。大会分两天进行，上午基本上是大礼堂主题演讲，下午是各个技术方向的讲座。通过讲座对hadoop生态系统有了一个全面的了解：Hive :hive是一个基于Hadoop文件系统上的数据仓库架构。它为数据仓库管理提供了数据ETL(抽取，转化和加载)工具,数据存储管理和大型数据集的查询

2011-12-16 23:12:54 2473 1

原创大数据技术大会参会小结

2011年11月26有幸受邀参加了csdn组织的TUP 大数据大会，小小的总结一下。这次会议是在三元桥附近举行，参会人员很多，大会主要议题是大数据处理方面的技术，主要技术涉及hadoop,nosql等海量数据处理技术。上午涉及议题主要内容： HCE,批量计算mapreduce,MPI Redis应用 R语言

2011-11-30 21:57:06 3182 4