自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

  • 博客(39)
  • 资源 (5)
  • 收藏
  • 关注

翻译 Solr Performance Factors(solr性能优化因素分析及配置)

Schema Design Considerations(schema配置文件爱你注意事项)indexed fieldsThe number of indexed fields greatly increases the following: Memory usage during indexing Segment merge time Optimization t

2013-09-30 17:09:23 2315

转载 Java 序列化的高级认识

Java 序列化的高级认识杨 硕, 研究生, 东北大学软件学院魏 强, 硕士研究生, 东北大学软件学院简介: 如果你只知道实现 Serializable 接口的对象,可以序列化为本地文件。那你最好再阅读该篇文章,文章对序列化进行了更深一步的讨论,用实际的例子代码讲述了序列化的高级认识,包括父类序列化的问题、静态变量问题、transient 关键字的影响、序列化 ID 问

2013-09-30 10:50:18 842

转载 hbase实现快速行统计

1. Enable AggregationClient coprocessorYou have two choices :You can enable aggregation coprocessor on all your tables by adding the following lines tohbase-site.xml : hbase.coproces

2013-09-30 10:46:18 2171

转载 Facebook messages实现解读(facebook 基于hbase的消息系统数据结构)

Facebook之前上线了新的messages实现,以前草草的看过相关的几篇blog还有facebook同学在qcon上讲的hbase的slide,但其实看的都很粗略,尤其是之前去facebook和相关同学交流后,发现和自己之前理解的太不一样了,于是近几天又翻出了messages的几篇blog来仔细的看了看,看完后的感触就是facebook在设计其messages实现时,会尽可能做到物尽其用,对于

2013-09-30 10:33:31 3786

转载 Facebook Messages背后的数字故事(facebook hbase应用:消息业务说明)

Facebook于11月16日早晨在旧金山召开了新闻发布会,就Facebook即将推出的全新通信系统做了讲话,这一大家最近一直猜测的问题终于也因此有些明朗化了。核心内容可以概括为: 它绝不仅仅是电子邮件这么简单。为什么呢?这明明是电子邮件,为什么又说不是呢?Facebook老大Mark Zuckerburg说道:“每当我已有机会和一些高中生们交流,我就会问他们,你们到底喜欢用什么方式来联络

2013-09-30 10:30:14 1287

转载 HBase跨集群复制数据的另一种方法

一、从源hbase集群中复制出HBase数据库表到本地目录最好停止HBase,否则可能会丢部分数据[hbase@hadoop200 ~]$ hadoop fs -get /hbase/toplist_ware_total_1009_201232 toplist_ware_total_1009_201232压缩[hbase@hadoop200 ~]$ tar zcvf topl.t

2013-09-30 10:25:37 1086

转载 hbase 通过mapreduce方式对hbase表的备份及恢复(export import)

1, hbase自带的备份恢复工具hbase org.apache.hadoop.hbase.mapreduce.Export 'table1' /home/fred/table1hbase org.apache.hadoop.hbase.mapreduce.Import 'table1' /home/fred/table1导入时必须先创建表结构。http://www.itey

2013-09-30 10:24:25 1532

转载 mabatis源码解析之查询流程

准备工作Mybatis完成一次SQL查询需要使用的代码如下:  Java代码  String resource = "mybatis.cfg.xml";          Reader reader = Resources.getResourceAsReader(resource);          SqlSessionFactory ssf = new Sq

2013-09-26 09:07:20 1111

转载 Hive源码解析之词法分析器parser

Hive源码解析系列–词法分析器parser接着上次的Hive解析走,上次分享的 一直在忙hive sql优化,所以对sql语法解析关注的多一些,词法解析器+语法解析器。这次说说基于hive源码说说的词法解析器,而对于分析重点还是正常SQL解析,而非ddl,set 等。词法分析器 parser在是一个简单的类图:ParserDriver是词法解析的开始, hive源码解

2013-09-26 09:05:32 3017

转载 hive源码解析之语法解析

Hive语法解析器是根据词法分析 > 生成的语法树为基础,进行语法解析。根据语法token的情况实现了五个具体的语法解析器。+在你生成语法器的时候, SemanticAnalyzerFactory分别针对不同的情况生成对应的某个语法器,如下SemanticAnalyzerFactory类:+ 现在有五个语法解析器 analyzer继承了BaseS

2013-09-26 09:04:33 2040

转载 hive源码解析之运行原理

hive就是一个将sql语句转化为MR工具hive的工作原理:1、使用antlr定义sql语法,(详细见hive.g),由antlr工具将hive.g编译为两个java文件:HiveLexer.java    HiveParser.java,可以将输入的sql解析为ast树2、org.apache.hadoop.hive.ql.Driver对ast树进行初步的解析(combile),调

2013-09-26 09:01:57 2728

转载 hive 源码解析之代码整体结构

CliDriver初始化过程CliDriver.main  是 Cli 的入口(1) 解析(Parse)args,放入cmdLine,处理 –hiveconf var=val  用于增加或者覆盖hive/hadoop配置,设置到System的属性中。(2) 配置log4j,加载hive-log4j.properties里的配置信息。(3)创建一个HiveConf,设

2013-09-26 09:00:16 2683

转载 Apache Solr实现竞价排名

如果想在solr实现像百度一样相似的竟价的排名,也是可以的,在solr中实现竟价排名,主要使用QueryElevationComponent组件,solrconfig.xml配置:searchComponent name="elevator" class="solr.QueryElevationComponent"> pick a fieldType

2013-09-25 09:27:20 1661

转载 Mybatis查询结果列表嵌套列表

笔记:使用mybatis查询一列表,结果为List>,列表内Map又包含一个列表.使用mybatis查询的话,大致就是下边这个样子。注:结果中的fId、ids需唯一 Xml代码    select id="name" parameterType="Map" resultMap="ResultMap">        select t.id as `id`, 

2013-09-25 09:26:01 3784

转载 hbase基于YCSB的压力测试配置与使用

原文链接:http://blog.lars-francke.de/2010/08/16/performance-testing-hbase-using-ycsb/原文作者Lars Francke,德国汉堡的以为自由软件开发者,关注H系列(Hadoop,HBase,Hive,…)分布式系统。这里是对原文的一个不完全的大致的翻译。————————————– 毫无理由的分割线 —————————

2013-09-25 09:23:12 1532

转载 Nginx参数配置以及Nginx+tomcat配置集群

开发的应用采用F5负载均衡交换机,F5将请求转发给5台hp unix服务器,每台服务器有多个webserver实例,对外提供web服务和socket等接口服务。之初,曾有个小小的疑问为何不采用开源的apache、Nginx软件负载,F5设备动辄几十万,价格昂贵?自己一个比较幼稚的问题,后续明白:F5是操作于IOS网络模型的传输层,Nginx、apache是基于http反向代理方式,位于ISO模型的

2013-09-25 09:19:03 1164

转载 Redis作者谈Redis应用场景

毫无疑问,Redis开创了一种新的数据存储思路,使用Redis,我们不用在面对功能单调的数据库时,把精力放在如何把大象放进冰箱这样的问题上,而是利用Redis灵活多变的数据结构和数据操作,为不同的大象构建不同的冰箱。希望你喜欢这个比喻。下面是一篇新鲜出炉的文章,其作者是Redis作者@antirez,他描述了Redis比较适合的一些应用场景,NoSQLFan简单列举在这里,供大家一览:1.

2013-09-25 09:16:34 810

转载 redis实现topn

Jedis 是 Redis 官方首选的 Java 客户端开发包。这篇文章我们将介绍如何使用 Sorted Set 排序集合(zsets)。Sorted Set 跟一个集合一样,它是不会存在重复的数值,最大的不同是 Sorted Set 中每个元素都是经过排序的。我们先看一些命令:01import java.util.HashMap;

2013-09-23 16:10:44 2876

转载 Web服务器日志统计分析完全解决方案 (2)

4.2 使用apache自带的rotatelogs实现日志轮循 apache提供了将不把日志直接写入文件,而是通过管道发送给另外 一个程序的能力,这样就大大的加强了对日志进行处理的能力,这个通过管道得到的程序可以是任何程序:如日志分析,压缩日志等。要实现将日志写到管道只需要将配置中日志文件部分的内容替换为“|程序名“即可,例如:# compresse

2013-09-23 15:55:22 1701

转载 Web服务器日志统计分析完全解决方案 (1)

摘要:对于所有的ICP来说,除了保证网站稳定正常运行以外,一个重要的问题就是网站访问量的统计和分析报表,这对于了解和监控网站的运行状态,对提高各个网站的服务能力和服务水平是必不可少的。通过对Web服务器的日志文件进行分析和统计,能够有效掌握系统运行情况以及网站内容的受访问情况、加强对整个网站及其内容的维护与管理。本文对Web服务器日志分析的原理和技术进行讨论。文章相关软件:

2013-09-23 14:37:55 1614

转载 淘宝Hadoop集群机器硬件配置

国内外使用Hadoop的公司比较多,全球最大的Hadoop集群在雅虎,有大约25,000个节点,主要用于支持广告系统与网页搜索。国内用Hadoop的主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群属于较大的(如果不是最大)。淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系

2013-09-23 14:00:06 2580

转载 hadoop 0.23的容量调度器简介(Hadoop MapReduce Next Generation - Capacity Scheduler)

原文:http://hadoop.apache.org/common/docs/r0.23.0/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html这个文档描述了CapacityScheduler,一个可插入的hadoop调度器,它可以使的多个用户可以安全的共享一个大的集群,他们的应用程序可以在容量限度下获取到需要的资源。概述Capac

2013-09-23 13:58:55 952

转载 Google Analytics统计代码GA.JS中文教程

天我们讲一讲Google Analytics新统计代码GA.JS,关于GA.JS脚本在这里跟大家深入浅出地进行探讨和学习。代码示例:var gaJsHost = ((”https:” == document.location.protocol) ? “https://ssl.” : “http://www.”);document.write(unescape(”%3Cscript

2013-09-23 13:56:07 2441

原创 solr 独立zookeeper集群 SEVERE: null:java.lang.IllegalArgumentException: port out of range:-1 异常处理

异常信息如下:SEVERE: null:java.lang.IllegalArgumentException: port out of range:-1        at java.net.InetSocketAddress.(InetSocketAddress.java:83)        at java.net.InetSocketAddress.(InetSocketAddr

2013-09-22 16:37:55 6777

转载 淘宝离线日志分析、实时日志分析系统架构端倪

1.业务场景伴随着市场和技术的发展,个性化已经成为淘宝搜索的一个重要目标。简单来说,个性化就是让每个用户在使用淘宝搜索时都能够获取自己最想要的结果,而不再是千篇一律的展示。实现个性化最直接的手段就是通过分析用户的历史行为日志,为用户打上不同的标签,在搜索中根据这些标签来展示最贴近的结果。在淘宝,用户属性分析是通过每天在云梯上定时运行的map reduce job来完成的,产出结果导入我们的

2013-09-22 09:41:39 9141

转载 互联网用户行为采集淘宝方案

互联网日志划分页面访问日志:每个页面装载head部分的时候,下载一个js,这个js将发送一个请求到日志服务器,请求中包含了同步在淘宝cookie的本地cookie信息,也包含了refer/url/要获取的header参数/session的信息,由此完成pv/uv的默认计算,淘宝的atp.js就是完成这个工作,而google统计的ga.js是完成同样的事情页面交互日志:用户在页面上某个行为触

2013-09-22 09:39:06 3420

转载 网站统计中的数据收集原理及实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理,并一步一步实际搭建一个实际的数据收集系统。数据收集原理分析简单来说,网站统计分析工具需要收集到用户浏览目标网站的行为(如打开某网页、点击某

2013-09-22 09:37:10 1641 1

转载 GA在电子商务网站中的高级应用

电子商务网站的数据分析是一个非常严肃的问题,可以说任何一个缺乏数据分析这个职位的电子商务公司,都是不完整的!数据分析的重要性已经是不言而喻的了,在此也不再累赘。电子商务算是一个新兴的行业,当B2B的发展遇到瓶颈之后,越来越多的企业开始布局在线销售平台,称之为B2C平台。然而,大部分企业都用不上高端的数据分析工具,Google Analytics作为一个强大的免费工具,是大多数企业的首选。工

2013-09-22 09:34:11 1937

转载 Ecommerce Tracking - Web Tracking (ga.js)谷歌GA埋点web日志跟踪统计实例

Before Google Analytics can report ecommerce activity for your website, you must enable ecommerce tracking on the view (profile) settings page for your website. After that, you must implement thega.

2013-09-22 09:33:21 2640

转载 ClickHeat安装使用手册

ClickHeat安装使用手册FROM:http://blog.tangtang.org/article/tag/clickheatClickHeat安装使用手册ClickHeat是一套优秀的开源软件,它实现了在HTML网页上生成可视化的点击热图,即将用户的鼠标点击转换为可视化的冷热图形。它通过Javascript脚本进行跟踪记录,采用PHP语言来记录日志,采用General Dyna

2013-09-22 09:30:09 2009

转载 Impala安装文档完整版

一、Impala简介Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。二、安装要求1、软件要求

2013-09-22 09:27:57 1657

转载 Solr4.3+zookeeper+tomcat 集群部署高可用

当前我使用三台服务器搭建集群分别是192.168.0.18、192.168.0.19、192.168.0.20,其中18为主服务器,19、20为从服务器,并且在20服务器安装zookeeper一、在tomcat7中部署solr41、首先从官网下载solr4.3.1版本到三台服务器(当前的最新版本solr-4.3.1.tgz)2、tar -zxvf solr-4.3.1.tgz (解压s

2013-09-18 19:26:46 4055

转载 数据仓库中的三种事实表

在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。        事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的。        事务事实表记录的事务层面的事

2013-09-18 10:15:32 1972

转载 数据仓库维度建模笔记

数据仓库工具箱—维度建模的完全指南》是数据仓库建模方面的经典著作, 1996年第一版出版被认为是数据仓库方面具有里程碑意义的事件。作者kimballl是数据仓库方面的权威,他将多年的数据仓库建模实战经验、技巧融入本书。他提出的许多维度建模概念被广泛应用于数据仓库的设计和开发中。2002年本书出版了第二版。这是一部非常好的数据仓库建模的书,前后完整的读了三遍,受益匪浅。以下笔记将本按四个部分

2013-09-18 10:14:18 1716

转载 HIVE在腾讯分布式数据仓库实践

摘要:在12月1日“Hadoop生态系统”主题分论坛,腾讯高级工程师赵伟首先介绍了他们的TDW核心架构,HIVE,MapReduce,HDFS及PostgreSQL构成。赵伟分享了最核心的HIVE模块在TDW中的实践经验;HIVE是一个在Hadoop上构建数据仓库的软件,它支持通过类SQL的HQL语言对结构化数据进行操作;实现了基本的SQL功能,可扩充UDF/UDAF、...【CSDN现场报道

2013-09-18 10:12:32 2190

转载 k均值聚类(K-means)

4.1、摘要      在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介

2013-09-17 16:19:54 1658

转载 分类算法之决策树(Decision tree)

3.1、摘要      在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。3.2、

2013-09-17 10:21:21 1142

转载 分类算法之贝叶斯网络(Bayesian networks)

2.1、摘要      在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级

2013-09-17 10:18:35 1310

转载 分类算法之朴素贝叶斯分类(Naive Bayesian classification)

0、写在前面的话      我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。      一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决

2013-09-17 10:16:18 994

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除