转载 你的不自律,正在慢慢毁掉你


转载 全文检索的基本原理

一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长度

转载 Servlet - Request、Session、servletContext区别


转载 Linux下基于RPM BUNDLE包安装MySQL

--Linux下基于RPM BUNDLE包安装MySQL下载地址:http://dev.mysql.com/downloads/mysql/ [root@ocm2 ~]# ls mysql-5.7.17-1.el5.i686.rpm-bundle.tar mysql-5.7.17-1.el5.i686.rpm-bundle.tar [root

原创 kylin学习(二)

界面操作:1,创建新的project2,单击web界面的Model -》 DataSource下的load hive table ,输入表名,用逗号分隔,单击sync,3,创建model。model是cube的基础,它主要用于描述星型模型。有了数据模型,定义cube的时候就可以直接从此模型定义的表和列中进行选择,省去重复指定连接条件的步骤。基于一个数据模型可以创建多个cube。

原创 kylin学习(一)


转载 Spark On YARN内存和CPU分配

转载自:http://blog.csdn.net/fansy1990/article/details/54314249本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark

转载 spring各jar包作用于spring常用注解


转载 Java静态代理和动态代理

本文动态代理部分内容大量引自:http://www.ibm.com/developerworks/cn/java/j-lo-proxy1/一、代理概念为某个对象提供一个代理,以控制对这个对象的访问。 代理类和委托类有共同的父类或父接口,这样在任何使用委托类对象的地方都可以用代理对象替代。代理类负责请求的预处理、过滤、将请求分派给委托类处理、以及委托类执行完请求后的后续处理。

转载 Java8内存模型—永久代(PermGen)和元空间(Metaspace)

一、JVM 内存模型  根据 JVM 规范,JVM 内存共分为虚拟机栈、堆、方法区、程序计数器、本地方法栈五个部分。  1、虚拟机栈:每个线程有一个私有的栈,随着线程的创建而创建。栈里面存着的是一种叫“栈帧”的东西,每个方法会创建一个栈帧,栈帧中存放了局部变量表(基本数据类型和对象引用)、操作数栈、方法出口等信息。栈的大小可以固定也可以动态扩展。当栈调用深度大于JVM所允许的范围,会抛

转载 maven 不同环境打包方案


转载 Java中对象的深复制(深克隆)和浅复制(浅克隆)介绍

1.浅复制与深复制概念 ⑴浅复制(浅克隆)     被复制对象的所有变量都含有与原来的对象相同的值,而所有的对其他对象的引用仍然指向原来的对象。换言之,浅复制仅仅复制所考虑的对象,而不复制它所引用的对象。 ⑵深复制(深克隆)     被复制对象的所有变量都含有与原来的对象相同的值,除去那些引用其他对象的变量。那些引用其他对象的变量将指向被复制过的新对象,而不再是原有

转载 Spark核心RDD:combineByKey函数详解

为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view

转载 reduceByKey和groupByKey区别与用法

在Spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。针对pair RDD这样的特殊形式,spark中定义了许多方便的操作,今天主要介绍一下reduceByKey和groupByKey,

转载 Spark Sort-Based Shuffle内幕彻底解密

Spark Sort-Based Shuffle内幕彻底解密本期内容:1 为什么使用Sort-Based Shuffle2 Sort-Based Shuffle 实战3 Sort-Based Shuffle 内幕4 Sort-Based Shuffle的不足一、为什么需要Sort Based Shu

转载 RDD Join 性能调优

阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn.net/u011239443/article/details/53894611#t16)Join数据是我们在Spark操作中的很重要的一部分。Spark Core 和Spark SQL的基本类型都支持join操作。虽然join很常

转载 Spark1.5堆内存分配

Spark1.5堆内存分配这是spark1.5及以前堆内存分配图下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾spark 默认分配512MB JVM堆内存。出于安全考虑和避免内存溢出,Spark只允许我们使用堆内存的90%,这在spark的spark.storage.safetyFraction 参数中配置着。也许你听说的spar

转载 Spark配置参数说明


转载 Scala之类型参数化:Type Parameterization

Scala之类型参数化:Type Parameterization本文原文出处: http://blog.csdn.net/bluishglc/article/details/52584401 严禁任何形式的转载,否则将委托CSDN官方维护权益!Scala之类型参数化Type Parameterization型变Variance不变 Invariant协变C

原创 spark Job执行流程

RDD的action操作会引发job的执行。abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient private var deps: Seq[Dependency[_]] ) extends Serializable with LoggingRDD有两个入参

转载 Java NIO浅析

NIO(Non-blocking I/O,在Java领域,也称为New I/O),是一种同步非阻塞的I/O模型,也是I/O多路复用的基础,已经被越来越多地应用到大型应用服务器,成为解决高并发与大量连接、I/O处理问题的有效方式。那么NIO的本质是什么样的呢?它是怎样与事件模型结合来解放线程、提高系统吞吐的呢?本文会从传统的阻塞I/O和线程池模型面临的问题讲起,然后对比几种常见I/O

转载 Scala 深入浅出实战经典 第46讲: ClassTag 、Manifest、ClasMainifest TagType实战

package com.parllay.scala.type_parameterizitor /*** Created by richard on 15-7-30.* 第46讲: ClassTag 、Manifest、ClasMainifest TagType实战*/object Manifest_Class { def main(args: Array[String]) {/*

转载 Java泛型-类型擦除

Java泛型-类型擦除一、概述      Java泛型在使用过程有诸多的问题,如不存在List.class, List不能赋值给List(不可协变),奇怪的ClassCastException等。 正确的使用Java泛型需要深入的了解Java的一些概念,如协变,桥接方法,以及这篇笔记记录的类型擦除。Java泛型的处理几乎都在编译器中进行,编译器生成的bytecode是不包涵泛型信息的,

翻译 Spark编程指南--Shuffle

Certain operations within Spark trigger an event known as the shuffle. The shuffle is Spark’s mechanism for re-distributing data so that it’s grouped differently across partitions. This typically invol

翻译 Spark编程指南

Understanding closures 理解闭包One of the harder things about Spark is understanding the scope and life cycle of variables and methods when executing code across a cluster. RDD operations that modify var

转载 远程通信的几种选择(RPC,Webservice,RMI,JMS的区别)

RPC(Remote Procedure Call Protocol) RPC使用C/S方式,采用http协议,发送请求到服务器,等待服务器返回结果。这个请求包括一个参数集和一个文本集,通常形成“classname.methodname”形式。优点是跨语言跨平台,C端、S端有更大的独立性,缺点是不支持对象,无法在编译器检查错误,只能在运行期检查。Web Service Web Service提供

转载 Linux下 环境变量/etc/profile、/etc/bashrc、~/.bashrc的区别

最近配置了Java和Scala的环境变量,发现自己对Linux下 /etc/profile、/etc/bashrc、~/.bashrc的区别不是特别清楚,特此查阅了相关资料,整理下来,供以后查阅。如有错误之处,还望各位朋友批评指正。 ①/etc/profile: 该文件登录操作系统时,为每个用户设置环境信息,当用户第一次登录时,该文件被执行。也就是说这个文件对每个shell都有效,用于

原创 好网站


转载 Stringstr=new String("abc") 这行代码究竟创建了几个对象?

Stringstr=new String(“abc”); 紧接着这段代码之后的往往是这个问题,那就是这行代码究竟创建了几个String对象呢?相信大家对这道题并不陌生,答案也是众所周知的,2个。接下来我们就从这道题展开,一起回顾一下与创建String对象相关的一些JAVA知识。 我们可以把上面这行代码分成Stringstr、=、”abc”和new String()四部分来看待。Stringst

翻译 String intern() method in Java. Why we use it?

Briefly, Java’s String class has a public method intern() that returns a canonical representation for the string object. Java’s String class privately maintains a pool of strings, where String literals

原创 java类路径,工程根路径

package main.java;import java.io.File;public class TestPath { public static void main(String[] args) throws Exception{ //如果不加“/” 采用“” 获取当前类的加载目录 String path=TestPath.class.getResour

转载 maven 配置多模块项目 pom modules

maven 配置多模块项目 pom modules 所有用Maven管理的真实的项目都应该是分模块的,每个模块都对应着一个pom.xml。它们之间通过继承和聚合(也称作多模块,multi-module)相互关联。那么,为什么要这么做呢?我们明明在开发一个项目,划分模块后,导入Eclipse变成了N个项目,这会带来复杂度,给

转载 slf4j、log4j、logback关系介绍

日志框架 日志框架中,经常出现的slf4j、log4j、logback、slf4j-log4j、log4j-over-slf4j等等,让人混淆。为此,特意查找整理了一下,盗贴个图先:日志架构图 上图中:接口:将所有日志实现适配到了一起,用统一的接口调用 实现:目前主流的日志实现 旧日志到slf4j的适配器:如果使用了slf4j,但是只想用一种实现,想把log4j的日志体系也从logbac

原创 简单xsd实例

<?xml version="1.0" encoding="UTF-8"?><xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" targetNamespace="http://www.zte.bigdata.vmax.com.cn" xmlns="http://www.zte.bigdata

转载 引入XSD的两种方式

现在的语言,如果不有那么一点OO的影子,都不好意思称之为语言了。在XML的语义约束方面,DTD虽然简单,但是功能不够强大,完全是直白的描述,于是又有了替代DTD的XSD(XML Schema Definition),XSD引入了数据类型,提供了自定义数据类型的各种机制,甚至还能找到继承、多态等各种OO特征,然而学习起来也就相对复杂了,从这篇笔记开始学习一下XSD。1、XSD文件是一种XML文件  X

原创 与时间做朋友

1,我们可以用自己的大脑控制自己的大脑。开启心智,时间就会拥有不同的质量,进而整个人生都必然因此焕然一新2,多学习技能3,速成是不可能的,积累4,无法解决的问题,记录下来,在人生的某个阶段就开窍了5,及时行动 只要做事,就一定会出问题。如果在做事的过程中没有出现任何问题,那肯定不是做事,而是做梦6,效率低下的根本原因:回避困难7,关注步骤what,why how8,写简单日志:事情加耗时9,预演1

原创 认识事物过程

1,定义 what2,原理3,特点,优缺点4,如何使用5,如何改进6,其他

转载 新手如何学习Java——Java学习路线图

怎么学习Java,这是很多新手经常会问我的问题,现在我简单描述下一个Java初学者到就业要学到的一些东西:首先要明白Java体系设计到得三个方面:J2SE,J2EE,J2ME(KJAVA)。J2SE,Java 2 Platform Standard Edition,我们经常说到的JDK,就主要指的这个,它是三者的基础,属于桌面级应用开发,这部分如果学得好很容易拓展J2EE和J2ME。J2ME,The

原创 spark学习起步(四)--部署方式

spark支持以下几种部署模式:1,单机模式2,伪集群模式3,独立集群4,yarn集群5,mesos不同的部署方式,差异主要体现在运行资源的管理和分配以及容错处理上单机模式:Driver,Master,Worker,Executor都运行在 同一个JVM进程之中伪集群部署:local-clustermaster和worker运行于同一个jvm

原创 spark学习起步(三)--作业提交

一个application运行期间可以执行多个spark job(作业),有多少作业是由多少个action操作的rdd决定。几次action,就有几个job每个job 分为多个stage,stage划分是依据shuffleDependency(宽依赖)。每次遇到一个,就要新产生一个stage。shuffle类算子会产生新的stage。从RDD角度看,ShuffledRDD,CoGrou

全书共四部分13 章:第一部分(第1~2 章)主要介绍了如何获取、阅读和调试Hadoop 的源代码, 以及YARN 的设计思想、基本架构和工作流程;第二部分(第3~7 章)结合源代码详细剖析和讲解了 YARN 的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN 的 应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager 等组件的实现细 节;第三篇(第8~10 章)则对离线计算框架MapReduce、DAG 计算框架Tez、实时计算框架Storm 和 内存计算框架Spark 进行了详细的讲解;第四部分(第11~13 章)首先对Facebook Corona 和Apache Mesos 进行了深入讲解,然后对YARN 的发展趋势进行了展望。


kafka_the definitive guide(201707)

2017.07版本,英文版高清。This book is absolutely the best way to learn about Kafka; from internals to APIs, written by some of the people who know it best. I hope you enjoy reading it as much as I have!












win7 win8都能使用。本人使用win8系统,用它索引函数相当方便



win8可以使用,可以通过索引快速查找 使用方便



