2014年07月_蓝天的IT生涯

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载搭建高可用的MongoDB集群（上）：MongoDB的配置与副本集

【编者按】传统的关系数据库具有不错的性能及稳定性，同时，久经历史考验，许多优秀的数据库沉淀了下来，比如MySQL。然而随着数据体积的爆发性增长，数据类型的增多，许多传统关系数据库扩展难的特点也爆发了出来，NoSQL数据库也应运而生。然而区别于以往的使用方法，许多NoSQL都有着自己的限制，从而也导致了入门难的问题。这里我们为大家分享上海创行科技技术总监严澜的博文——如何搭建高效的MongoDB集群

2014-07-30 19:42:11 660

转载 AccessController类的doPrivileged

以下摘自JDKhttp://gceclub.sun.com.cn/Java_Docs/html/zh_CN/api/java/security/AccessController.html AccessController 类用于与访问控制相关的操作和决定。更确切地说，AccessController 类用于以下三个目的：基于当前生效的安全策略决定是允许还是拒绝对关键系统

2014-07-29 13:39:02 771

转载 idea快捷键

1. IDEA内存优化 \IntelliJ IDEA 9\bin\idea.exe.vmoptions------------------------------------------Xms64m-Xmx256m-XX:MaxPermSize=92m-ea-server-Dsun.awt.keepWorkingSetOnMinimize=true

2014-07-28 16:15:43 575

原创《HBase权威指南》学习总结

Hbase学习总结1.HBase概述及部分存储知识概述:架构简介：简述： Hbase基于hadoop的HDFS系统，其文件存储都是存储在HDFS上的。由上图看到HBase主要处理两种文件：一种是预写日志（Write-Ahead Log，WAL）即图中的HLog。另一种文件是实际的数据文件HFile（HFile本事就是HDFS的文件，文件格式遵循HBase可导入的格式

2014-07-27 21:33:22 1897

转载 LR 逻辑回归

初步接触谓LR分类器(Logistic Regression Classifier)，并没有什么神秘的。在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时，这一组权值按照与测试数据线性加和的方式，求出一个z值：z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据

2014-07-23 17:19:58 1567

转载 HBase 系统架构

HBase是Apache Hadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型。它存储的是松散型数据。HBase特性：1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Goog

2014-07-22 22:48:55 635

转载 LSM树由来、设计思想以及应用到HBase的索引

讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系统。对于key-value的插入以及查询，哈希表的复杂度都是O(1)，明显比树的操作O(n)快,如果不需要有序的遍历数据，哈希表就是your Mr.RightB树存储引擎是B树（关于B树的由来

2014-07-22 13:43:51 741

转载 python下载文件DEMO

#coding=utf-8'''Created on 2013-7-17@author: zinan.zhang'''import reimport timeimport httplib2import urllibfrom bs4 import BeautifulSoup#路径savePath = 'F://TDDOWNLOAD//aNO.4

2014-07-18 19:59:12 988

原创一个判断图像格式的代码

public static boolean checkImage(byte[] src) { int v1 = src[0] & 0xFF;// byte to int String hv1 = Integer.toHexString(v1); int v2 = src[1] & 0xFF;// byte to int String hv2

2014-07-17 14:37:52 723

原创动态链接库加载的问题

通过本地JNI调用需要在linux机器上安装动态lianjie

2014-07-14 21:51:55 686

转载 hadoop作业reduce过程调优使用到的参数笔记

reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition，所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以，为了优化reduce的执行时间，hadoop中是等job的第一个map结束后，所有的reduce就开始

2014-07-10 09:35:48 770

原创在执行生成Hfile的MR任务的时候出现client端的OOM

在执行MR将HDFS转换为HFile的时候，出现了如下异常：14/07/09 18:02:59 INFO mapred.JobClient: map 83% reduce 0%14/07/09 18:02:59 INFO mapred.JobClient: Task Id : attempt_201401091245_59030413_m_000001_0, Status : FAILE

2014-07-09 18:33:42 1153

原创 JNI调用之本地库文件的安装

在进行JNI调用的时候，是由java的本地接口调用本地库文件来完成的，但是本地库文件需要放置到指定位置，JNI接口才能调用到，这个路径是由JVM的系统变量“java.library.path”指定的。大家可以将这个变量所指定的路径打印出来例如：System.getProperty("java.library.path")。在windows环境下可以看到执行的目录是什么C:/windows/sy

2014-07-09 18:30:50 1084

原创 linux 常用默认变量

linux 下面 $OLDPWD 表示上一个工作目录

2014-07-09 11:10:14 632

转载 Osgi相关

读者将首先了解到如何在 Servlet Container 中嵌入 OSGI，并从文章提供的例子中了了解其工作原理，并提供一个简单的示例。通过学习了解 Servlet Container 中嵌入 OSGI, 我们也可以将这种技术用到其它的已有的系统中来部署 OSGI 应用。 OSGI 在 J2EE 环境下的应用越来越广泛，目前在 Servlet 应用中使用 OSGI 有两种方式：Servlet

2014-07-03 22:19:45 792

转载 PySpark内部实现

PySpark实现了Spark对于Python的API，通过它，用户可以编写运行在Spark之上的Python程序，从而利用到Spark分布式计算的特点。基本流程PySpark的整体架构图如下，可以看到Python API的实现依赖于Java的API，Python程序端的SparkContext通过py4j调用JavaSparkContext，后者是对Scala

2014-07-02 09:25:19 12112 2