自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习,我们是认真的

专注大数据研发,数据分析与挖掘

转载 如何快速学习一个开源框架

你有个任务,需要用到某个开源项目;或者老大交代你一个事情,让你去了解某个东西。怎么下手呢?如何 开始呢?我的习惯是这样: 1.首先,查找和阅读该项目的博客和资料,通过google你能找到某个项目大体介绍的博客,快速阅读一下就 能对项目的目的、功能、基本使用有个大概的了解。 2.阅读项目的文档,...

2018-07-22 18:46:03 3959 0

原创 Linux命令学习笔记

1.echo命令 说明:用于在终端输出字符串或者变量的值 使用方法:echo [字符串 || $变量] 实例: echo “HelloWorld” echo $SHELL 2.date命令 说明:用于显示或者设置系统的时间以及日期 使用方法:date [选项] [+指定的格式] ...

2018-07-20 21:35:41 106 0

转载 一个企业的大数据分析平台的构建方法

导读 在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决定平台搭建过程中使用的大数据处理工具和框架。 面对海量的各种来源的数据,如...

2018-07-07 17:23:39 4200 0

原创 scala学习之基础知识(一)

一.变量与函数定义 1.变量定义 在

2018-07-02 08:53:25 91 0

原创 scala系列之类层级关系

一.scala层级结构图   scala语言中所有的类都继承自一个共同的超类Any,是scala类层级的根节点,在其下面有两个子类:AnyVal和AnyRef,其中AnyVal是Scala中所有值类的超类,AnyRef是scala中引用类的超类。而在scala类层级的底部分布着两个特殊的类:NU...

2018-07-02 02:02:56 397 0

原创 scala学习说明

工作需要开始逐渐学习scala语言,以博客记录自己的学习过程,目前学习参考书籍主要为scala编程和快学scala两本中文翻译书籍(英文水平不行,哈哈),学习主要使用到的工具为JDK1.8.0_1.71,Scala2.12.0,IntelliJ IDEA Community Edition 201...

2018-06-17 22:19:38 72 0

转载 大数据学习之路

转载他人博客,原文地址:http://www.cnblogs.com/xing901022/p/6195422.html 大数据学习之路(持续更新中…) 在16年8月份至今,一直在努力学习大数据大数据相关的技术,很想了解众多老司机...

2017-08-11 16:10:00 455 0

原创 HDFS原理综述篇

概述HDFS即Hadoop分布式文件系统,主要用于支持海量数据的分布式存储管理,适合一次写,多次读取数据的应用场景。在HDFS文件系统中有几个重要的守护进程协调的运行来提供服务: 名称节点进程 辅助名称节点进程 数据节点进程 HDFS也是主从架构的。运行名称节点进程的服务器我们称之为主节点,运行...

2017-08-11 15:30:03 414 0

原创 HBase之shell操作

主要介绍一下HBase的相关shell操作hbase shell连接Hbase 连接上Hbase,可以看到版本号help命令查看可用的shell命令使用help命令查看Hbase支持的相关shell命令 create创建表语法格式: create ‘表名’, ‘列族1’,‘列族2’,‘列族n...

2017-08-10 13:30:55 377 0

原创 HBase总结之原理架构篇

概述Hbase是一个分布式的存储系统。Hbase利用Hadoop的HDFS作为其文件存储系统,利用Hadoop的MapReduce来处理Hbase中的海量数据。利用zookeeper作为其协调工具。在Hadoop整个生态系统中的位置关系如下图:特点 大:一个表的数据量可以很大,比如有数十亿行,百万...

2017-08-10 10:41:29 378 0

原创 动态规划

台阶问题题目: 有n级台阶,一个人每次上一级或者两级,问有多少种走完n级台阶的方法。为了防止溢出,请将结果Mod 1000000007给定一个正整数int n,请返回一个数,代表上楼的方式数。保证n小于等于100000。测试样例: 1 返回:1代码:import java.util.*;pu...

2017-08-08 20:54:58 144 0

原创 二叉树

知识点1.二叉树结构class Node{ int value; Node left; node right; public Node(int data){ this.value = data; } }2.二叉树常考题型 易结合队列、栈,数组、链...

2017-08-05 22:01:03 151 0

原创 Spark性能调优-集群资源分配策略

开发完成Spark作业之后,我们在运行Spark作业的时候需要为其配置一些资源参数,比如num-executors,executor-memory等,这些参数基本上都是可以在spark-submit命令中作为参数设置,但是如何设置合适的参数值是需要我们权衡考虑的(集群资源,调优经验,任务大小等)。...

2017-08-04 11:05:20 2467 0

原创 二分搜索

局部最小值位置题目: 定义局部最小的概念。arr长度为1时,arr[0]是局部最小。arr的长度为N(N>1)时,如果arr[0]public class Solution { public int getLessIndex(int[] arr) { //特殊情况判断...

2017-08-03 22:50:09 117 0

原创 链表

环形链表插值问题题目: 有一个整数val,如何在节点值有序的环形链表中插入一个节点值为val的节点,并且保证这个环形单链表依然有序。给定链表的信息,及元素的值A及对应的nxt指向的元素编号同时给定val,请构造出这个环形链表,并插入该值。测试样例: [1,3,4,5,7],[1,2,3,4,0...

2017-08-01 19:14:13 128 0

原创 Spark源码之reduceByKey与GroupByKey

Spark中针对键值对类型的RDD做各种操作比较常用的两个方法就是ReduceByKey与GroupByKey方法,下面从源码里面看看ReduceByKey与GroupByKey方法的使用以及内部逻辑。官方源码解释:三种形式的reduceByKey总体来说下面三种形式的方法备注大意为: 根据用户...

2017-07-26 09:53:15 12015 3

原创 栈与队列

Stack栈的基本操作: new Stack():创建一个空栈 push(E e):将元素压入栈,返回值为该元素 pop():将元素弹出栈,返回值为该元素 peek():返回栈顶元素,但是并不从栈中移除该元素 empty():测试栈是否为空,返回boolean值可查询最值的栈问题题目: ...

2017-07-25 21:13:07 353 0

原创 位运算

算术运算符:+ - * / % 位运算符号:& | ^ ~ >> <<等交换练习题题目: 请编写一个算法,不用任何额外变量交换两个整数的值。给定一个数组num,其中包含两个值,请不用任何额外变量交换这两个值,并将交换后的数组返回。测试样例: [1,2] ...

2017-07-25 13:43:01 134 0

原创 字符串相关

编程语言均为JAVA。字符串面试题类型 规则判断:字符串是否符合某个规则 如整数规则,浮点数规则,回文字符串规则; 数字运算 字符串拼大整数的方式实现加减乘除运算,模拟笔算过程。 与数组操作相关的类型 (1)数组有关的调整,排序等操作 (2)快排的改写等 字符计数 c/c++中...

2017-07-23 16:41:31 186 0

原创 Java虚拟机之对象访问

Java虚拟机原理复习笔记-东东 今天主要学习一下Java语言中对象的访问机制,主要参考《深入理解Java虚拟机》这本书。 我们平常写Java程序的时候,创建一个对象实例是非常常见的语句,如Object obj = new Object(),创建完成后,new Object()这部分语义会反...

2017-07-21 09:44:13 261 0

原创 Java虚拟机之内存区域详解

Java虚拟机原理复习笔记-东东 Java虚拟机在运行java程序的时候会将它所管理的内存划分为若干个不同的数据区域,包括以下几个方面: 程序计数器区域 较小的内存空间,作用是当前线程所执行的字节码的行号指示器。在虚拟机的概念模型中,字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要...

2017-07-19 15:28:01 168 0

原创 Spark源码解析之任务提交(spark-submit)篇

今天主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图: 接下来按照图中结构出发一步步看源码:spark-submit#!/usr/bin/env bash# # Licensed to the Apac...

2017-07-12 09:58:24 9551 3

原创 Spark源码之checkpoint方法解析

今天在阅读Spark源码的时候看到了checkpoint方法,之前也在处理数据的的时候用到过,但是没有深入理解这个方法,今天结合官方文档以及网上博客重新认识了一下这个方法,这里做个总结。主要从两个方面讲解: 1.官方对这个方法的解释 2.这个方法的使用场景checkpoint官方源码以及解释 ...

2017-07-11 13:10:02 252 0

原创 split函数解析

今天在使用Spark做数据分析时候遇到一个问题,解析文件得到的字段数目总是跟预设的有出入,经过反复排查,发现是scala中split函数使用出现错误导致的,通过查看Java API文档中的split函数解释,才真正的理解split函数的使用,下面分享一下自己的认识。官方API文档解释**1.Str...

2017-07-10 17:13:57 437 0

原创 Spark源码之persist方法,cache方法以及StorageLevel

今天看Spark源码的时候看到了persist方法与cache方法,这里就说明一下两者的区别,也解决了自己之前的疑惑。cache方法Spark2.11关于cache方法的源码是这样的: /** * Persist this RDD with the default storage level...

2017-07-07 16:58:54 3155 0

原创 Spark读Lzo压缩格式的文件

第一种方式:val rdd = sc.newAPIHadoopFile("path/*.lzo",classOf[com.hadoop.mapreduce.LzoTextInputFormat], classOf[org.apache.hadoop.io.LongWritabl...

2017-07-07 14:44:44 2336 0

原创 scala中break与continue的实现

近日使用scala写Spark程序时候遇到一个问题:在一个循环程序中如何跳出整个循环以及如何跳出本次循环?之前在写Java程序时这两个功能很好实现,即两个关键字:break与continue即可,可是发现Scala中并不支持这两个关键字功能,查了一些资料,发现Scala中定义了一个类可以帮助我们实...

2017-07-06 16:20:30 7408 0

转载 水塘抽样算法

Reservoir Sampling 蓄水池抽样算法,经典抽样 随机读取数据,如何保证真随机是不可能的,因为计算机的随机函数是伪随机的。 但是在不考虑计算机随机函数的情况下,如何保证数据的随机采样呢? 1.系统提供的shuffle函数   C+...

2017-07-05 08:24:35 441 0

转载 Spark性能优化——解决Spark数据倾斜(Data Skew)的N种姿势

转载文章,原文博客地址http://www.jasongj.com/spark/skew摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机...

2017-07-04 16:40:04 238 0

原创 Spark性能调试之小分区合并

Spark性能调试是使用Spark的用户在进行大数据处理的时候必须面对的问题,性能调优的方法有很多,这里首先介绍一种常见的调优问题-小分区合并问题。小分区合并问题介绍在使用Spark进行数据处理的过程中,常常会使用filter方法来对数据进行一些预处理,过滤掉一些不符合条件的数据。在使用该方法对数...

2017-07-04 13:28:20 1587 0

原创 Windows下Storm+Kafka+Zookeeper单机开发环境搭建测试

本文主要介绍本地模式下实时流测试环境的搭建,这里主要采用Storm+Kafka+Zookeeper架构,具体步骤如下: 安装启动Zookeeper,具体步骤见我之前转载的博客http://blog.csdn.net/do_yourself_go_on/article/details/7393080...

2017-06-30 10:08:03 1332 0

转载 Windows单机配置Zookeeper环境

本文转载自作者sphsyv,原文地址:http://www.jianshu.com/p/f7037105db46 Windows单机配置Zookeeper环境 首先要确保机器已经安装好java环境,并且配置好环境变量 http:...

2017-06-30 09:29:12 635 0

转载 Windows单机配置Kafka环境

本文转载自作者sphsyv,原文地址:http://www.jianshu.com/p/64d25dcf8300 Windows单机配置Kafka环境 首先确保机器已经安装好Zookeeper,Zookeeper安装参考 W...

2017-06-30 09:20:01 643 0

转载 windows下安装storm1.1.0并启动

**文章转载:http://www.cnblogs.com/wuxun1997/p/6866916.html?utm_source=itdadao&utm_medium=referral**  64位windows安装storm前需要先搞定zookeeper和python,所以下面我们3步...

2017-06-14 16:18:32 2034 0

原创 Windows下搭建Spark源码阅读与调试环境

了解和使用Spark有一段时间了,但是对Spark的一些原理和内部机制了解的不够深入,故打算研读一下Spark源码。今天首先介绍一下Spark源码阅读与调试环境的搭建。开发工具安装首先是一些必要的工具的安装,这里不一一介绍了,请读者自行提前安装好:(以下工具版本可自行选择,但是要符合Spark版本...

2017-06-12 17:32:22 4047 0

转载 Spark奠基者博士论文中文版

由 CSDN CODE翻译社区 组织的长篇论文翻译An Architecture for Fast and General Data Processing on Large Clusters 经过长达3个月的历程终于全部翻译完成。该论文是Spark主要开发者Matei Zaharia的博士论文,全...

2017-06-12 15:07:50 795 0

原创 Spark做数据分析:输入法性能指标分析

本文主要介绍如何使用Spark来对输入法用户使用日志数据进行分析,从数据源加载=》数据分析处理逻辑=》代码打包提交集群运行=》运行结果展示几个方面来进行介绍。数据源本文采用的数据是某输入法的用户使用日志数据,数据样本如下图所示: 这里的字段以“~”分割,分别为用户ID,产品ID,平台,版本,渠道...

2017-06-08 17:32:23 439 1

原创 scala中==,equals,eq与ne比较

记录一下scala中常用的几种比较方法的用法“==”方法的使用及含义首先看一下官方文档给的解释:final def ==(arg0: Any): Boolean //测试两个对象是否相等。表达式x==that含义为:如果x eq null 则为that eq null 否则为x.equal...

2017-05-25 22:16:26 3746 0

原创 排序算法之折半插入排序

折半插入排序算法是对直接插入排序算法的简单改进,主要将折半比较的思想引入插入排序,在一定程度上提高了直接插入排序的效率。算法描述直接插入排序算法中,当第i-1趟需要将第i个元素插入到0~i-1个元素之间时,总是需要从第i-个元素开始,依次与前面的每一个元素进行比较,直至找到合适的位置进行插入。这样...

2017-05-23 17:35:02 9352 0

原创 排序算法之直接插入排序

根据寻找插入位置的方法对插入排序进行分类可以分为以下三类: 直接插入排序 折半插入排序 希尔插入排序 本篇主要介绍直接插入排序算法。算法描述插入排序的核心思想是每步将一个待排序的元素,按照其排序码的大小,插入到前面已经排好序的一组元素的合适位置上,直至元素全部插入完毕为止。如何为一个待排序元素在排...

2017-05-23 17:28:53 443 0

提示
确定要删除当前文章?
取消 删除