luoshi0801-CSDN博客

原创值得推荐的研发工具

好的开源框架、工具应该广泛分享，不仅可以大大提高企业效率，反过来也能促进这些工具的优化升级~ 自动化部署: rundeckhttp://rundeck.org/ 简单数据分析/报表工具: easyreporthttps://github.com/xianrendzw/EasyReport/...

2017-04-12 10:48:43 203 1

原创技术人员层级描述

层级特征描述技能初级能在一定的指导下完成日常工作。1、程序设计和开发（I）2、工作中需用到的Java开发的技术点（I）3、工作中需用到的Web开发的技术点（I）4、工作中需要用到的数据库技术点（I）中级能独立完成日常工作，并能够对一些方案提出自己的建议。1、程序设计和开发（II）2、工作中需用到的Java开发的技术点以及相关的其他技术点（II）3、工作中...

2017-02-16 14:47:33 949

java技能模型

Java技术人员岗位模型 *I为了解；II为熟练；III为精通岗位设置目的岗位职责初级工程师中级工程师高级工程师资深工程师架构师项目管理给自己的开发工作内容制定细分的的开发计划　√√　　制定项目中开发计划，控制整个开发的进度　　√√　在项目中，协调与其他技术部门在开发上的接口，确定方案...

2017-02-16 14:36:10 192

日志agent解决方案

logagent是部署在每台服务器上的一个deamon进程，起着日志数据的传输通道。对外提供http服务拉取日志，结构如下：其中， filter：请求过滤器，负责访问源解析统计，权限认证等container：包含了正在访问的文件句柄集合，当日志滚动文件名变更发生时可以防止错误定位handler：获取日志数据的处理器，采用偏移量随机读取的方式store...

2015-10-27 14:48:00 1726

原创 redis实践－cluster搭建

redis3开始支持cluster集群模式，解决单点的瓶颈问题，本文以3.0.3为例搭建并测试cluster集群搭建步骤一.安装ruby a) wget https://cache.ruby-lang.org/pub/ruby/2.2/ruby-2.2.3.tar.gz b) tar -xvzf ...

2015-09-17 10:22:21 116

Disruptor封装

在数据交换场景，disruptor受到越来越多的欢迎。下面是将原生disruptor封装成queue模型的代码，供参考抽象类Disruptor，提供pull、take等接口 import com.lmax.disruptor.EventHandler;import com.lmax.disruptor.InsufficientCapacityException;...

2015-07-24 11:28:21 371 1

原创技术编码规范

最近为公司整理了下技术编码规范，主要是统一下研发风格并从长远看提高整个团队的工作效率。如下：一、Git工程 1.1 使用maven创建依赖工程，上传到公司git库http://10.1.xx.xx:8080/groups/koudai，初创者拥有owner权限，相关开发developer，其它一律guest 1.2 工程结构，以dump-consle子工程为例 ...

2015-06-23 13:48:05 230

原创消息队列

最近在公司调研消息中间件，参考metaq设计总结了需要focus的点 1 项目背景消息队列作为中间件核心的产品，在电商平台体系中扮演着异构系统解耦、数据同步等极其重要的作用，目前公司采用了开源的rabbitMq，存在以下几个问题：（1） erlang语言，学习成本高，出现问题难以把控，基本是黑盒（2）消息数据的完整性、实时性无法得到...

2015-05-29 16:53:02 168

原创 jstorm

Jstorm是参考storm的实时流式计算框架，在网络IO、线程模型、资源调度、可用性及稳定性上做了持续改进，已被越来越多企业使用作为commiter和user，我还是非常看好它的应用前景，下面是在团队内的分享介绍，更多请参考https://github.com/alibaba/jstorm一、jstorm是什么 jstorm可以看作是storm的java增强...

2014-12-20 18:26:43 272

原创搜索技术架构

年初加入搜索组到现在快一年过去了，期间有幸经历了团队由小变大、系统从若变强的原始积累过程，回顾下走过来的技术体系，也算是年终总结搜索支撑的业务线包括商品、店铺、订单、用户等大大小小20多个，双11期间搜索量在2亿/天，实体服务器超过100台。按功能分为分布式实时引擎、dump中心、数据分析和运维平台几大块 dump中心，实质是根...

2014-12-19 22:05:07 114

原创 solrcloud的xmind思维图

基于solr4.9.0开源版本，恢复这块待完善。原始xmind可参考附件

2014-12-19 09:24:39 106

tcp长链接分享

8月份给团队内部分享的《TCP长链接》

2014-12-18 22:59:10 109

tlog宣讲ppt

http://dl2.iteye.com/upload/attachment/0093/6776/433dc11e-4df4-3776-b75d-e7f0f26d01f8.swf

2014-02-09 00:18:58 95

原创 groovy和java结合的常用两种使用方式

groovy是基于JVM的一种敏捷动态语言，可以在不改动正在运行着程序的情况下为系统动态增加特性方法一：通过类加载 import groovy.lang.Binding;import groovy.lang.GroovyClassLoader;import groovy.lang.Script;import java.io.BufferedReader;i...

2014-01-26 15:30:02 849

原创 hadoop如何封装shell脚本

package com.taobao.hsf.tlog.config.shell;import java.io.BufferedReader;import java.io.File;import java.io.IOException;import java.io.InputStreamReader;import java.util.Map;import org...

2014-01-26 15:11:04 178

原创 tlog数据存储

Tlog采用了hbase+云梯的存储方案，分别对应实时和离线的数据服务，它们在tlog中的场景描述为：实时服务—如查看近2分钟某应用的服务调用情况；检索一笔彩票订单目前的流程状态。它们的特点是数据粒度细、实时性要求高、不能重复计算或重复计算结果不一致、稳定性差离线服务—如统计昨天提供调用次数最多的前10个服务；分析前一个月里售出彩种ID=1的总额最高的代理商和最低代理商，金额分别是多少。...

2013-09-08 21:06:55 600

原创异步hbase的用法

异步hbase包asynchbase-1.4.1.jar，maven的pom如下：<dependency> <groupId>org.hbase</groupId> <artifactId>asynchbase</artifactId> <version>1.4.1</version><

2013-05-03 17:57:49 2292

《大数据》这本书并不是专业技术书籍，它更像是一部历史纪传体，描述了19世纪以来美国政府、社会、公民在信息IT技术潮流中扮演的角色及发挥的作用，从一个行业的视角反映了美国的民主文化、经济政治等客观因素对技术浪潮产生的影响和推动作用。一、以法立国，以数治国个人认为，当下的一个文明社会，首先应该是一个法制的社会。俗话说“无以规矩、不成方圆”就是这个道理。美国之所以敢以文明社会自居，离不了它们的立国根本...

2013-03-17 18:43:11 229

原创 java序列化之protobuf

一年多前做ppt，是关于protobuf的原理介绍和性能测试对比

2013-03-12 11:18:19 107

Hdfs之DistributedCache

在利用mapred分析大数据时，程序中常常会引入hdfs上一些“辅助数据”，通常的做法在mr的启动前加载这些数据形成cache以提高效率，而mr在大并发下去访问hdfs的同一文件可能存在性能瓶颈，DistributedCache可以帮助解决。 DistributedCache</code> is a facility provided by the Map-Redu...

2013-03-12 11:05:32 116

原创 hive中自定义RegexSerDe尝试

当原始数据中包好了诸如'\u0001'、'\u0002'、'\u0003'等hive默认的column分隔字符时，在select数据时就可能出现数据格式错乱的情况，为了避免这类现象，可以用自定义的RegexSerDe规避这类特殊字符。例子：ac18148213512592717614403|1351259272977|0.44|ulc|302|302^R670777442^RLBX...

2013-03-10 18:27:18 331

原创将hdfs文件导入hive表

hive sql对hdfs的操作最终都会转化为mr任务，下面介绍如何将已经存在的hdfs文件“导入”hive表，很简单条件及要求：1）hdfs文件为经过lzo压缩的seqFile2）seqFile数据样例 127.0.0.1 ae8186613401633040361974|1340163304040|0.1|hsf.qa.test|yuanfeng...

2013-02-28 20:45:58 2288

原创线上运维

1.登录负载高的机器，利用top命令查看发现最耗cpu的进程ID是17221，并dump线程：jstack 17221 >> jstack.log 2.利用 top -p 17221 -H查看该进程下所有线程发现性能损耗最大的线程ID是17260 3.echo "obase=16;17260" | bc ，将线程ID转化为16进制大写字母变小写，前面加0x...

2013-02-27 17:37:51 217

原创理解设计模式(一)

观察者模式：定义对象间的一对多依赖，当一个对象状态改变时，所有依赖它的对象都会收到通知并自动更新观察者获得更新状态的方式有“推（push）”和“拉pull”两种方式，前者认为更合理，因为可以一次性给到观察者需要的数据；而后者对观察者更自由，可以决定什么时候去拿，拿什么样的数据，前提是主题需要定义一些列getter方法。注意，程序不能依赖观察者被通知的顺序...

2012-07-30 23:27:50 87

原创 linux系统性能监控常用命令

一、Linux服务器性能关注点1)CPU-> load:表示cpu在一段时间内正在处理以及等待处理的任务之和统计信息，简单可理解为cpu正处理的线程数和能同时处理的线程数的比值。一般认为load值的安全上限为cpu的个数-> run queue:表示cpu维护的线程运行队列。在多核系统中，每个cpu都将维护这么一个队列，其长度值越大表明cpu负载越高，load指标便基于此统...

2012-07-29 18:59:54 236

原创重构概述

重构—对软件内部结构的一种调整，目的是在不改变软件可观察行为的前提下，提高其可理解性，降低其修改成本。代码坏味道常用重构手段Duplicated重复代码Extract MethodExtract ClassPull Up MethodForm Template MethodLong Method 过长函数...

2012-05-10 20:52:23 91

动态函数调用追踪方法

上学期间研究了下软件执行网络的动态拓扑特性，实验了一些在函数粒度上可行的网络构造方法，这里总结下，感觉对分析开源软件代码有一定帮助。废话不多说，主要分为c/c++和java两种：(1) 基于Gnu/Gprof运行时剖析工具Gnu/Gprof是类Unix平台下对c/c++开源项目的一个profile分析工具，它能在程序运行过程中记录下函数间的调用关系，每个函数被调用的次数，每个函...

2012-02-19 00:04:26 435

luoshi0801的专栏