2016年10月_秉寒-CHO

原创 enum 枚举的简单应用

package com.ibm.enums;public class TestEnum { public enum ColorEnums{ red ,green ,yellow,blue; } public enum Male{ ForMale("girl",1),Male("boy",2); private String name; priva

2016-10-21 10:12:54 423

原创单例模式&synchronized

package com.ibm.dg;public class Main { public static void main(String[] args) { // TODO Auto-generated method stub SingletonClass s1 =SingletonClass.getInstall();

2016-10-20 17:57:57 879

原创 Spark的 DAGschedule & task schedule 区别以及相互联系

这2个概念很容易混淆，需要写一遍文章梳理spark的 DAGschedule & task schedule 区别以及相互联系

2016-10-16 20:37:44 1609

原创 Spark的stage & job & task 到底是什么 ,以及划分原理

这几个概念很容易混淆，需要写一遍文章梳理Spark的stage & job & task 到底是什么 ,以及划分原理

2016-10-16 20:35:42 9283

原创 Java基本数据类型&引用类型总结

java 基本数据类型Java基本类型共有八种，基本类型可以分为三类，字符类型char，布尔类型boolean以及数值类型byte、short、int、long、float、double。数值类型又可以分为整数类型byte、short、int、long和浮点数类型float、double。JAVA中的数值类型不存在无符号的，它们的取值范围是固定的，不会随着机器硬件环境或者操作系统的改变而改变。

2016-10-15 22:01:08 10219

原创 Spark core 核心算子优化

算子优化 MapPartitionsspark中，最基本的原则，就是每个task处理一个RDD的partition。MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，functi

2016-10-15 19:36:47 2658

原创大数据面试题

1.列举spark 比hadoop 快的原因，以及现在存在的主要问题2.描述下使用spark streaming 和 GraphX实现实时计算的可行性，以及可能会遇到的问题3.GraphX的Pregel API 只支持有向图遍历，如何实现无xiang 遍历，描述思路4.SPark 通过yarn 提交任务时，yarn-client & yarn-cluster 的区别

2016-10-15 13:36:56 1062

原创技术更新，发布两个招聘（面试可以提高技能）

数据仓库工程师-战略(J11666)工作地点：北京市职位类别：技术类招聘人数：若干职位描述：1. 负责业务相关数据指标的计算挖掘；2. 负责数据建模以及数据仓库应用产品的设计和开发；3. 负责数据仓库ETL流程的优化及解决ETL相关技术问题。任职要求：1、本科及以上学历，计算机相关专业 2、2年以上企业级数据仓库开发经验 3、熟悉数据仓库理论，具备复杂业务

2016-10-14 23:05:51 684 1

原创大数据Hive 面试以及知识点

18 hive表关联查询，如何解决数据倾斜的问题? 倾斜原因：map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾斜;如何避免：对于ke

2016-10-14 22:35:29 34382

原创大数据Hbase 面试题

1.2 hbase 的特点是什么 (1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储，zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据，对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hbase为null的记录不会被存储.(4)基于的表包含rowkey，时间戳，和列族。新写入数

2016-10-14 22:33:09 26684

原创流式计算storm应用场景简介

(1) storm是一个进程常驻内存的、分布式的，对数据实时流式处理框架，不同于MR的批处理和spark streaming的微批处理，storm实现了对数据处理的毫秒级延迟。它的数据源被称为SPOUT，数据处理流程被称为BOLT(2)storm一般应用于对数据的处理速度特别高的场景。比如金融行业，毫秒级延迟的需求至关重要。一些需要实时处理数据的场景也可以应用Storm，比如根据用户行为产

2016-10-14 22:30:10 4798

原创描述下jvm的gc机制,常用的jvm调优方法,oom如何产生,如何处理oom 问题?

GC机制：分配对象使用new关键字;释放对象时，只要将对象所有引用赋值为null，让程序不能够再访问到这个对象，我们称该对象为"不可达的".GC 将负责回收所有"不可达"对象的内存空间。jvm 调优方法:1.最基本的建议就是尽早释放无用对象的引用。大多数程序员在使用临时变量的时候，都是让引用变量在退出活动域(scope)后，自动设置为null.我们在使用这种方式时候，必须特别注意一些复杂的对

2016-10-14 22:22:53 1113

原创大数据hadoop 面试经典题

1.在Hadoop中定义的主要公用InputFormat中，默认是哪一个？（A） A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储？（C） A.NameNodeB.JobTracker

2016-10-14 22:18:58 38663 3

原创 redis 个人理解和常用命令以及应用场景

redis 个人理解和常用命令以及应用场景

2016-10-14 15:16:17 442

原创 Hadoop 源码编译 step by step 最简洁的步骤

各软件版本：Java : 1.7.0_79Hadoop ： hadoop-2.6.5-src.tar.gzmaven：3.3.9protocbuf：2.5解压缩 tar -zxvf 1 配置maven 环境变量 export MAVEN_HOME=/root/compileHadoop/maven-3.3.9export PATH=$PATH:

2016-10-12 22:17:42 2617 3

原创 Openstack 的介绍，安装以及简单应用

Openstack 的介绍，安装以及简单应用

2016-10-12 08:35:26 806

原创 Docker 的介绍，安装以及简单应用

Docker 的介绍，安装以及简单应用

2016-10-12 08:34:49 344

原创星型模型和雪花模型的应用场景

星型模型和雪花模型的应用场景

2016-10-11 11:38:01 3597

原创 K 聚类分析实现类源码

数据文件来自：http://archive.ics.uci.edu/ml/datasets/Wholesale+customers?cm_mc_uid=21918109261714715776095&cm_mc_sid_50200000=1476090999import org.apache.spark.{SparkContext, SparkConf}import org.apa

2016-10-10 17:33:55 1015 2

原创 Spark SQL 两表关联

import org.apache.spark.sql.SQLContextimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkContext, SparkConf}//define case class for usercase class User(userID: String, gend

2016-10-10 16:18:14 3926 1

原创 Spark SQL 应用示例

import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.types._import org.apache.spark.sql.Rowimport org.apache.spar

2016-10-10 16:12:36 587 1

原创 Spark SQL 程序开发需要注意的要点

Spark SQL 程序开发过程中，我们有两种方式确定 schema，第一种是反射推断 schema，这种方式下，需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema，这种方式主要是通过 Spark SQL 提供的 StructType 和 StructField 等 API 来编程实现，这种方式下不需要定义样本类在程序实现中，我们

2016-10-10 15:22:56 897

原创 Spark Streaming 应用实例

案例介绍与编程实现1. 案例介绍该案例中，我们假设某论坛需要根据用户对站内网页的点击量，停留时间，以及是否点赞，来近实时的计算网页热度，进而动态的更新网站的今日热点模块，把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户，我们需要对他的行为数据做一个抽象，以便于解释网页话题热度的计算过程。首先，我们通过一个向量来定义用户对于某个网页的行为即点击

2016-10-10 13:45:03 603 2

原创利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项

利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项需要合理的设置数据处理的间隔，即需要保证每一批数据的处理时间必须小于处理间隔，保证在处理下一批数据的时候，前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input 数据的量决定。需要尽可能的提升读取 input 数据的能力。在 Spark Streaming 与外部系统如

2016-10-10 13:24:35 481

原创 Kafka 集群搭建步骤

Kafka 集群搭建步骤1. 机器准备本文中，我们将准备三台机器搭建 Kafka 集群，IP 地址分别是 192.168.1.1，192.168.1.2，192.168.1.3，并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: https://kafka.apache.org/downloads.html下载完成后，上传到目标机器中的一个，

2016-10-10 12:58:04 702

原创 Spark Steaming 点滴

Spark Streaming 模块是对于 Spark Core 的一个扩展，目的是为了以高吞吐量，并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。Discretized Stream 也叫 DStream) 是 Spark Streaming 对于持续数据流的一种

2016-10-10 12:51:06 675

原创 Kafka 点滴

Kafka 是一个分布式的，高吞吐量，易于扩展地基于主题发布/订阅的消息系统，最早是由 Linkedin 开发，并于 2011 年开源并贡献给 Apache 软件基金会。一般来说，Kafka 有以下几个典型的应用场景: 作为消息队列。由于 Kafka 拥有高吞吐量，并且内置消息主题分区，备份，容错等特性，使得它更适合使用在大规模，高强度的消息数据处理的系统中。流计算系统的

2016-10-10 12:49:13 308

原创 Spark job 的执行流程简介

Spark 应用程序在提交执行后，控制台会打印很多日志信息，这些信息看起来是杂乱无章的，但是却在一定程度上体现了一个被提交的 Spark job 在集群中是如何被调度执行的，这里将会向大家介绍一个典型的 Spark job 是如何被调度执行的。我们先来了解以下几个概念：DAG: 即 Directed Acyclic Graph，有向无环图，这是一个图论中的概念。如果一个有向图无法从某个顶点

2016-10-10 12:39:15 739

原创 Spark Scalaa 几个常用的示例

SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContext._object SparkWordCount { def FILE_NAME:String = "word_c

2016-10-10 12:37:46 6420 1

原创在集群上运行spark app

本节内容简单介绍怎么在集群上运行spark 应用程序 1.spark 运行时架构在集群模式下，spark 是采用的主从结构，一个中央协调节点被称为驱动器driver ，多个工作节点被成为执行器 executor 。分别对应多个java 进程，，driver & executor 一起被称为一个spark 应用spark 应用通过一个叫集群管理器的外部服务来启动也就是

2016-10-08 11:20:44 792