第十人-CSDN博客

原创 hive 小文件合并

Hive 支持在 MR 任务结束之后，再另起一轮 MR 作业进行小文件的合并。这轮作业只会有 mapper, 没有 reducer. 每个 mapper 根据参数读入若干文件并输出成一个文件，从而达到文件合并的效果与 mergefile 有关的参数有以下：参数说明当前默认值hive.merge.mapfi

2016-05-10 16:45:08 681

原创 ElasticSearch集群配置及问题

ES客户端安装起来后，就需要用到ES的优点集群，下面是关于ES集群安装遇到问题的记录。elasticsearch.yml 的常用说明：http://bigbo.github.io/pages/2015/04/10/elasticsearch_config/下面是注意的几点问题：启动后本地可以访问，但是其他客户端无法访问端口原因：network.bind_host: 0.

2016-01-13 16:19:09 577

原创 ElasticSearch配置ik中文分词器

一、VersionsES Version: 2.1.1IK Version: 1.6.2说明：ES和IK的版本一定要相互兼容，具体兼容性可以查看下面的git说明二、InstallIK的下载：https://github.com/medcl/elasticsearch-analysis-ik里面附有安装步骤可以参考，本步骤是略作补充和说明comp

2016-01-08 11:21:03 557

原创 break label 用法

今天在看别人代码的时候看到一个之前没注意到的break 用法：break label。我们都知道break的用法，是用来跳出所在的循环，处理代码如下：public class BreakTest { public static void main(String[] args) { while (true) { for (int i = 0; i

2015-08-21 16:33:07 13301 2

原创微服务架构有用么?

很久很久之前我听说了SOA，我不知道这是干嘛的；很久之前我听说了微服务架构，我又不知道这是干嘛的。我就一直在问我自己现在的项目架构很落伍么，我怎么感觉它还是能满足我的需求的呢；新的架构能解决我的什么痛点，他们提到的现有的架构的缺点我没有感觉到，他们提到的新框架的优点我也不以为然。想了好久之后，我突然明悟：我的项目不适合这个架构。先说结论：微服务结构为大型项目（几十个人、几十万行代码）

2015-08-17 17:34:49 715

原创 Spark初识

参考：http://blog.sciencenet.cn/blog-425672-520947.html 一、与Hadoop的渊源没接触Spark之前，觉得这是一个高深的学问，今天大致看了一下简介发现它和hadoop平台并没有本质的区别，是对Hadoop的一种拓展，充分利用内存。Spark基于hadoop平台，继承了容错性、伸缩性和位置感知性调度等优

2015-08-06 10:57:16 400

转载 spring3.0事务的多数据源的annotation-driven用法

在使用spring的事务管理器时，特别是多个多个数据库源的时候一定要注意以下内容：@Transactional使用：1. @Transactional标注为空时，使用缺省的事务管理器。（spring容器缺省事务管理器：以加载顺序，首先加载的作为缺省）2. @Transactional制定了为定义过的事务管理器时，spring以缺省默认的事务管理器来处理3. @Transaction

2015-03-08 15:44:18 1047

原创 hive分区处理注意点

在优化一个使用4W个map的job的时候，发现了一个使用hive的注意点，跟大家分享下。hive表中一般都有分区，在程序里我们会动态取某个分区里的数据，这时分区值就是一个函数。这个函数的选择就是关键了。优化前的分区函数是： dt = date_sub(from_unixtime(unix_timestamp(), 'yyyy-MM-dd'), 2) （水平有限，当时就这么写了）

2015-02-12 16:48:12 396

今日早会，组长跟我们说我们这个季度要统计个人绩效了，听后每个人心里都是一阵忐忑。我们每个季度都要做绩效考评，需要我们给组内的同事打分，由于这个分数关系到我们的绩效工资，所以，我们必须把这个打分单独发给我们的老大，然后让老大一个人整理出来，作为绩效的参考。我们组有差不多五十多个人，每个人打分的对象也不一定相同，如果格式不统一的话，整理起来非常麻烦；在上个季度的时候，老大因为整理这个打分记录，整整花费

2015-01-29 22:55:30 511

原创 SOA下的MOCK接口

现在都在讲SOA，很多公司也是这么做的，这样做的好处我就不再这里重复了。SOA带来这些优点的同时也带来了很大的困扰，特别是在开发环境下，接口不稳定、频频挂掉，有时开发环境不如线上的数据那么丰富，想要的数据要不到，严重影响开发的进程。这种痛苦，想想就泪两行。哭归哭，哭够了，就得想一个下次不哭的方法。在考虑解决方案时，我想尽可能的简单，尽可能的不侵入代码，于是想来想去，就下定决心要用配置的方式。在

2015-01-07 19:52:10 942

原创 mongodb之分页与索引

The index stores score values in ascending order. MongoDB can traverse the index in either ascending or descending order to return sorted results.

2014-05-14 18:18:42 791

原创 IntelliJ IDEA中文的若干问题及其解决方案

今天是个好日子，因为困扰我idea汉字问题终于统统都解决了。主要问题有以下几个：1. String literal is not properly closed by a double-quote2. 插件乱码原因只有一个：IntelliJ IDEA中文支持很差解决方案：使用能够很好兼容中文的字体，比如：新宋体。设置如下：

2014-05-13 18:44:03 771

原创 mongo使用进程-副本集（Replica Sets）

副本集的介绍和搭建我这里就不说了，谷歌一下，还是很多的

2014-04-08 11:47:31 898

原创分页的一些想法

现状：1. 每次分页都需要查出记录的总数，耗性能2. 分页中每项内容是否必须，是否可以后加载3. 对于系统类网站，用户一般不关心业务的数字，他们主要的聚集点是“上一页”和“下一页”两个按钮（待调研）4. 绝大部分的用户不关心总数量、不会使用“跳到第几页”功能（待调研）方案：1. 在页面中不显示总页数，只有“上一页”、“下一页”功能（基本功能）2. 在查记录时，多

2014-04-03 13:18:25 508

原创 JVM之垃圾回收的判断及策略

本文总结自：《深入理解Java虚拟机》，本文用于帮助记忆，如果想要详细准确的描述，请阅读此书如何判断对象已死：1. 引用计数器法：当一个地方引用它时，就+1；当引用失效时，就-1；GC会回收那些计数为0的对象。优点：简单，快捷缺点：对于相互引用的对象会失效2. 跟搜索算法：从一系列名为“GC Roots”的对象为起始点向下搜索，搜索经过的路径就是引用链；当对象位于引用链上时，就

2013-12-23 14:27:00 874

原创项目进化进程缩影（1）

工作一年多了，眼看着项目分分合合，修修改改，成了现在这个样子，心中还是有许多的感慨的。今天在看《淘宝技术这十年》，想想也该对我这一年多的项目的进化做一次缩影总结了！版本1.0 ：我刚来公司的时候，这个项目也是刚刚出生，而那时的我也是刚走出校门，白的跟张白纸一样，所以，我和这个项目也是一起长大的。刚开始项目分为三个工程：前台、后台、定时、接口。前台：主

2013-12-18 16:16:06 546

原创 mysql笔记之查询处理

1. SQL语言出的子句处理是有一定顺序的，下面是个各个子句的顺序：(7)SELECT (8)DISTINCT(1)FROM(3)JOIN(2)ON(4)WHERE(5)GROUP BY(6)HAVING(9)ORDER BY(10)LIMIT

2013-12-18 16:14:50 440

bestlove1990的专栏