自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

paul_wei2008的专栏

互联网技术,java,大数据hadoop,nosql,数据仓库&数据库,消息,缓存,架构

  • 博客(30)
  • 资源 (31)
  • 收藏
  • 关注

转载 Linux常用操作命令

2014-02-26 16:31:18 572

原创 Oracle优化思路

优化思路:1)高效SQL:能用exists,不用in还有partition by分析函数,?绑定变量减少SQL硬解析,减少latch争用2)分区PARTITION (oracle自动,pg需要自己写触发器),分表,历史归档3)构建索引,常用B树,唯一索引,反向索引(避免后向匹配不走索引),伪复合索引,函数索引,OLAP上用bitmap索引,看执行计划4)定期重新统计,定期重新统计,

2014-02-26 14:03:04 899

原创 oracle的rownumber机制

rownumber伪列(动态计算):rownumber 必须从1开始计算,必须外面嵌套一层才可以,rownum是查询时候动态生成的从1开时候,所以 where rownumber=2返回空,rownumber=1可以查到,rownumber>=1 可以查到,rownumber

2014-02-26 11:15:57 1496

转载 R语言统计分析

http://blog.fens.me/r-hadoop-intro/前言写过几篇关于RHadoop的技术性文章,都是从统计的角度,介绍如何让R语言利用Hadoop处理大数据。今天决定反过来,从计算机开发人员的角度,介绍如何让Hadoop结合R语言,能做统计分析的事情。目录R语言介绍Hadoop介绍为什么要让Hadoop结合R语言?如何让Hadoop结合R语

2014-02-26 09:50:51 1914

转载 日志采集系统比较:scribe、chukwa、kafka、flume比较

1. 背景介绍  许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:   (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;   (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;   (3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平

2014-02-21 16:22:32 5583 1

转载 Partition by 分析函数示例

partition by :分组①ROW_NUMBER:Row_number函数返回一个唯一的值,当碰到相同数据时,排名按照记录集中记录的顺序依次递增。 ②DENSE_RANK:(稠密即连续)Dense_rank函数返回一个唯一的值,除非当碰到相同数据时,此时所有相同数据的排名都是一样的。 ③RANK:Rank函数返回一个唯一的值,除非遇到相同的数据时,此时所有相同数据的排

2014-02-20 18:27:21 1226

转载 NameNode和DataNode通信机制

备注:client和namenode之间是通过rpc通信;datanode和namenode之间是通过rpc通信;client和datanode之间是通过简单的socket通信。写数据:Blk A,Blk B,Blk C分别需要写入1,5,6 DN上,namenode询问1是否准备好,1问5是否准备好,5问6是否准备好,1,5,6之间创建一个pipe

2014-02-20 15:39:12 6633

原创 Hadoop RPC 源码解析

RPC源码分析(package org.apache.hadoop.ipc):(Client阻塞IO编程)(服务端非阻塞NIO编程)通过Java的动态代理(Dynamic Proxy)与反射(Reflect)实现一:建立连接getConnection分析:  Connection connection;     //如果connections连接池中有对应的连接对象,就

2014-02-20 15:10:56 863

原创 MapTask&ReduceTask运行机制原理

Map端:1.每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。spill过程即map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制),会在本地文件系统

2014-02-20 14:51:18 2511

转载 Hbase 介绍

Row Key与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行,只有三种方式:1 通过单个row key访问2 通过row key的range3 全表扫描Row key行键 (Row key)可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row ke

2014-02-20 14:10:35 608

转载 Solr的HBase多条件查询

摘要: 背景: 某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对rowkey支持毫秒级的快 速检索,对于多字段的组合查询却无能为力。针对HBase的多条件查询也有多种方 ...背景:某电信项目中采用HBase来存储用户终端明细数据,供前台页面即时查询。HBase无可置疑拥有其优势,但其本身只对row

2014-02-18 19:33:43 1805

转载 hbase的coprocessor机制来在hbase上增加sql解析引擎

自己参与构建的一个产品,其场景是每天凌晨批量导入计算好的前一天相关的业务数据到前端存储(数据库或者nosql),然后供用户调用。业务场景有2个特点:1.对于前端存储,存在大量的批量导入,数据量比较大,每天导入的数据达到数亿行。可以理解为凌晨集中写,然后白天只进行读。2.查询来说相对简单,如果是存数据库的话,每个表大概会由3~4个列来构成一个组合索引,然后查询就是根据这个组合索引来进行。

2014-02-18 19:30:43 1607

原创 Dubbo基本原理机制

分布式服务框架:–高性能和透明化的RPC远程服务调用方案–SOA服务治理方案-Apache MINA 框架基于Reactor模型通信框架,基于tcp长连接Dubbo缺省协议采用单一长连接和NIO异步通讯,适合于小数据量大并发的服务调用,以及服务消费者机器数远大于服务提供者机器数的情况分析源代码,基本原理如下:client一个线程调用远程接口,生成一个唯一的ID(比如一段随机字符

2014-02-17 21:37:13 73834 7

原创 zookeeper机制原理

zookeeper机原理(长连接):Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管。当对目录节点监控状态打开时,一旦目录节点的状态发生变化,Watcher 对象的 process 方法就会被调用。(任何实现org.apache.zookeeper.Watcher类,持有zookeep

2014-02-17 21:32:58 9177

原创 常用数据挖掘算法 - 决策树ID3&关联推荐Apriori &朴素贝叶斯NBC

数据挖掘主要解决四类问题:分类:预测主题属于(A,B,C)类,前提预先知道分类,根据构造模型算法将输入数据分类,而非一个具体数值(广义预测)-(决策树,Logistic回归,神经网络)聚类:把一个对象划分若干组,核心划分依据,如果选择若干指标(成本,价格,质量)对已有体验用户群进行划分,按指标计算距离归类(K-means聚类,聚类分)根据很多特征,相似分为一组。最大化类内相似性,最小化类间相

2014-02-17 21:27:53 3938

原创 Spring AOP 代理事务及 事务隔离级别

SpringAOP面向切面编程:aopalliance:联合的开源协作组织,在多个项目间进行协作以期提供一套标准的AOP Java接口Spring AOP:就是基于AOP Alliance标准API实现的aspectJ:采用了源代码生成技术来实现AOP。它提供了一套独有的基于Java平台的AOP语法,以及专有的AspectJ编译器。,能够识别诸如aspect,pointcut等特殊关键

2014-02-17 21:23:18 1690

原创 Hibernate的flush机制深入

Hibernate flush 机制:(执行save,update操作时,只是登记行为,flush时真正执行将登记行为插入数据库根据insert,update,……,delete的顺序提交所有登记的操作)//异常:unsafe use of the sessionTransaction tran = s.beginTransaction(); (1)s.save(cat); (2)(此

2014-02-17 21:16:39 3032

转载 信息产业联盟合作分类

产业联盟:    发展新兴产业最重要的是核心技术的研发,仅凭一家企业或少数几家企业难以承担起这样的重任。产业联盟正好可以通过企业间的优势互补,推动要素的整合和技术的提升,提高自主创新能力,加强关键核心技术的研究,实施研发和产业化工程,尽快推出新技术、新产品。    国际上通过建立产业联盟,实现产业快速发展的成功案例有很多。日本借助这一模式,组成了超大规模的电子集成系统技术研发和产业联盟,帮

2014-02-17 21:11:48 1162

原创 云计算之现状

早期grid computing 网格计算分布式计算 Oracle Grid,coluding computing云计算     网格计算与云计算区别:网格:需要计算能力很强计算机,紧耦合  云算计:廉价PC即可,松耦合虚拟化:把以一台计算能力很强服务器虚拟化很多服务器,供用户使用。CloudStack vs OpenStack三种云计算平台:1:IaaS:把基

2014-02-17 21:08:37 825

原创 高并发架构特点

高并发特点:CDN镜像:CDN即Content Delivery Networks ,是一种内容分发网络,用户就近访问,如果就直接取CDN镜像,没有到主服务器取,同时缓存给相应CDN负载均衡:采用LVS软负载均衡 F5是硬件负载均衡 访问压力分担到不同机器静态化:静态化和动态化分离缓存数据队列数据库集群(主从服务器,从是只读)库表垂直和水平分割Nosql分布式引擎及MapReduce虚拟化

2014-02-17 21:04:51 1159

原创 jms消息&camel

JMS简介:Java message service:java 消息服务包含两个 模型 PTP 点对点和Pub/Sub发布/订阅模型JMS应用场景:规模和复杂度较高的分布式系统,如Socket通信,RMI,SOA。解决问题:1)异步通信2)客户和服务对象松耦合3)点对点通信(发送具体目标)点对点(PTP)和发布订阅模型(PUB/SUB):PTP(

2014-02-17 21:00:04 944

翻译 Terracotta 分布式缓存机制深入

Terracotta已收购Ehcache GEWA出现过的问题:A)Consistency:STRONG(读阻塞写,3.6之前默认)---->EVENTUAL(3.6默认):配置读写方式B)Garbage  Collector:1小时-----> 10分钟(1小时暂停时间比较长):垃圾回收时间长短 配置C)每次更新:清除有变更的model对象 :未用DSO对象,

2014-02-17 20:49:37 3073

原创 设计模式23种小结

六大设计原则:OCP,ISP,DIP,LSP,CARP,LoD or LKPThe Open-Closed Principle (OCP) - OO设计的开闭原则(扩展开放,修改关闭)Interface Segregation Principle (ISP) - OO设计的接口分隔原则(建立单一接口,不要建立臃肿庞大的接口)Dependency Inversion Pr

2014-02-17 20:44:38 675

原创 NIO机制深入及代码示例

NIO:将通道绑定端口,并且将通道注册到selector并且监听特定事件与外围设备数据通信需要channel通道,如像外部输出数据,先将数据写入缓冲区通过通道输出。如果从外部读取数据,需要通过通道channel读取到缓冲区,然后从缓冲区数据获取处理。NIO底层工作机制:Select 模型  的底层实现可以通过服务提供者配置,支持的方式有select、poll、epo

2014-02-17 20:34:37 913

原创 Java线程集合类ConcurrentHashMap&CopyOnWriteArrayList 深入

一:(阻塞队列)BlockingQueue(子类:常用LinkedBlockingQueue和ArrayBlockingQueue)private BlockingQueue entryQueue = new LinkedBlockingQueue();put( ) take( ) --阻塞方法,put当队列数据满会阻塞,take当队列空阻塞等待数据offer       添加一个元素

2014-02-17 20:28:21 923

原创 MongoDB常用API及优化

MongoDB windows 安装:cmd 窗口 mongod.exe --dbpath=C:\MongoDBDATA ,cmd窗口不要关闭mongo.exe创建数据库:use whl (切换到whl 数据库,如果没有则创建,如果什么不操作,就会删除whl库)创建表(集合):db.createCollection(“users”)   db.oldname.renameC

2014-02-17 20:24:33 1383

原创 Mondrian ROLAP 小结

eclipse mondrian rolap:eclipse配置mondrian3.5 + jpvoit1.8  服务器jettty8,启动报错java.lang.ClassNotFoundException: mondrian.web.servlet.MdxQueryServlet解决方法如下:1)将mondrian.war解压后,lib下jar包拷贝到Dynamic P

2014-02-17 20:11:48 3155

原创 HBase性能优化

1 修改Linux配置:并发同时打开文件数默认1024,Too many files异常 解决方法:ulimit -n2 修改JVM配置:hbase-env.sh 中 hbase_heapsize 堆内存调整3 Hbase配置:1)zookeeper.session.timeout:这个timeout决定了RegionServer是否能够及时的failover。设置成1分钟或更低,

2014-02-17 19:59:46 959 2

原创 MapReduce工作原理图文

Bash-MapReduce AWK脚本性能更佳MapReduce工作原理图文详解目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文:1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图:流程分析:1.在客户端启动一个作业。2.向Jo

2014-02-17 19:48:25 6336

原创 JVM&垃圾回收机制

1垃圾回收算法?根对象(java栈, 静态变量, 寄存器.典型的是Main函数)1.   引用计数(Reference Counting)比较古老的回收算法。原理是此对象有一个引用,即增加一个计数,删除一个引用则减少一个计数。垃圾回收时,只用收集计数为0的对象。此算法最致命的是无法处理循环引用的问题。问题:没办法解决循环引用问题。比如:对象A有一个引用指向B对象,B也有一个引用指向

2014-02-17 16:14:31 1033

btrace1.3.9.zip

btrace1.3.9 jdk1.8 maven 编译构建 http://github.com/btraceio/btrace

2017-10-11

jvisual-btrace离线安装包.zip

jvisualvm btrace 插件离线安装包 1.2.85版本,目前官网不支持在线下载

2017-10-11

pentaho_kettle_solutions

pentaho_kettle_solutions bi olap etl 引擎

2014-06-22

HBase Administration Cookbook

HBase Administration Cookbook packet

2014-06-22

TheDefinitiveGuideToTerracottaCluster

TheDefinitiveGuideToTerracottaCluster terracotta 缓存

2014-06-22

programming web services soap

programming web services soap

2014-06-22

java性能调优

java performance 性能 优化 调优

2014-06-22

ApacheMaven3Cookbook

maven cookbook 学习指南,仔细阅读一本够了

2014-06-22

hadoop 实战 中文版

hadoop 实战 中文版深入浅出,陆嘉恒

2013-09-25

struts mvc 个人总结

struts mvc 机制原理 深入 demo 实例说明

2013-09-25

Spring Security3 安全 个人总结

Spring Security3 拦截 过滤器 安全,框架原理入门

2013-09-25

Hibernate annotation 注解个人笔记

Hibernate annotation 个人笔记

2013-09-25

spring mvc 框架

spring mvc demo 入门实例,手把手个人笔记

2013-09-25

Spring 个人小结

spring 个人小结 ,工厂模式 源码解析 ,AOP ,IOC 隔离事务

2013-09-25

最全正则表达式教程、最好正则表达式教程.doc

最全正则表达式教程、最好正则表达式教程.doc

2010-05-11

J2SE6.0_CN.chm

J2SE6.0_CN.chm chm JDK6 中文 API

2010-05-11

CSSFilter2

CSSFilter2.0_DOC_CN.chm css 详细 讲解 基础

2010-05-11

PostgreSQL8

PostgreSQL 8 SQL chm 中文

2010-05-11

SQL语言参考资料.chm

SQL语言参考资料.chm 资料 chm 大全 经典 常用 中文

2010-05-11

Log4j1.2.chm

Log4j api chm java 常用

2010-05-11

正则表达式系统教程.CHM

正则表达式系统教程.CHM java chm 正则

2010-05-11

sql语句大全 MS-SQL

sql Sqlserver 语句大全 精华

2010-05-11

The Java Developers Almanac 1.4.chm

The Java Developers Almanac 1.4.chm java 年鉴

2010-05-11

Hibernate3.2.chm

Hibernate 中文 帮助手册 Hibernate3.2.chm

2010-05-11

jQueryDocXML2CHM-090223.chm

jQueryDocXML2CHM-090223.chm jquery API 中文 chm

2010-05-11

《精通正则表达式》(第3版).chm

《精通正则表达式》(第3版).chm 第三版 ,正则表达式

2010-05-11

正则表达式eclispe插件

eclipse插件 正则表达式.可以各种模式匹配,便于开发

2009-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除