2018年09月_fuzuxian

11月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Flume

///\\\\\\1.flume是分布式的日志收集系统，把收集来的数据传送到目的地去。2.flume里面有个核心概念，叫做agent。agent是一个java进程，运行在日志收集节点。3.agent里面包含3个核心组件：source、channel、sink。3.1 source组件是专用于收集日志的，可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、s...

2018-09-26 22:51:23 663

原创 SparkStreaming

/////、、、import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.{SparkConf, SparkContext}object StreamingWC { def main(args: Array[String]): Unit = { // Strea...

2018-09-26 22:47:36 121

原创安装远程连接Ubuntu Server 的图形界面——x2go远程连接桌面

想要远程连接你的Ubuntu服务器的图形界面么？这里有个简单的指导告诉你如何使用X2Go来实现，这是一个NX远程桌面协议的衍生版本。你所需要做的就是 1. 在服务器上面安装X2Go服务端和桌面环境，2. 在客户机上安装X2Go的客户端。在Ubuntu服务器上安装远程桌面：通过PPA找到最新的X2Go服务端版本。先连接上你的Ubuntu服务器，使用下面的命令来安装PPA和相关的包。...

2018-09-21 11:59:40 19344 2

原创最短完备子序列——包含T全部元素的最小子窗口

////、、、、、、#include <iostream>#include <map>#include <queue>#include <climits>#include <algorithm>#include <string>using namespace std;bool MinWindow(vect...

2018-09-20 17:43:46 1050

转载 Spark中的checkpoint作用与用法

转自大佬的博客：感谢大佬checkpoint的意思就是建立检查点,类似于快照,例如在spark计算里面计算流程DAG特别长,服务器需要将整个DAG计算完成得出结果,但是如果在这很长的计算流程中突然中间算出的数据丢失了,spark又会根据RDD的依赖关系从头到尾计算一遍,这样子就很费性能,当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完...

2018-09-20 09:35:11 217

转载 Spark宽窄依赖详解_

转自大佬的博客： https://blog.csdn.net/modefrog/article/details/79581770 1.宽窄依赖 图中左边是宽依赖，父RDD的4号分区数据划分到子RDD的多个分区（一分区对多分区），这就表明有shuffle过程，父分区数据经过shuffle过程的hash分区器（也可自定义分区器）划分到子RDD。例如Group...

2018-09-19 18:47:59 645

转载 Spark任务提交方式和执行流程

转载自大佬的博客： http://www.cnblogs.com/frankdeng/p/9301485.html 一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭Spa...

2018-09-19 15:18:04 666

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2018-09-19 15:14:13 111

原创 Spark操作数据库API

写入Mysql数据库import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}object IPLocation { val data2MySQL = (iterator: Iterator[(String...

2018-09-18 21:38:49 452

原创自定义排序——Spark

//////、、、、、、、object OrderContext { implicit val girlOrdering = new Ordering[Gril]{ override def compare(x:Gril, y:Gril): Int ={ if(x.facevalue > y.facevalue) 1 else if ( x.f...

2018-09-17 22:05:46 158

原创 Spark——RDD算子

http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html/////\\\\\\mapPartitionsWithIndexval rdd1=sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)def myfunc(index: Int, iter: Iterator[(In...

2018-09-14 22:19:41 124

原创 Spark——计算用户在基站停留时间并排序

/home/hadoop/Data/logs/user.log15967170343,20180912082400,16030401EAFB68F1E3CDF819735E1C66,117606512176,20180912082500,16030401EAFB68F1E3CDF819735E1C66,115967170343,20180912170000,16030401EAFB6...

2018-09-14 22:16:11 886

原创华为笔试算法面试题——C++实现

1. 26进制的字符串相加两个大整数相加，每一位是一个小写字母，二十六进制，a表示0，z表示25，求结果。输入： 2个26进制数；输出： 2个26进制的和。实例：输入： z bc 输出： cb#include<stdio.h>#include<string.h>#include<iostream&g...

2018-09-05 22:17:09 9328 1

hipi-dev.tar.gz

HIPI是基于Hadoop MapReducede平台的一个大型的图像处理和计算机视觉库。它的设计是为了使大型的图像处理变得简单，提高图像处理的效率。

2018-04-19

零基础学习Hadoop

linux小白，hadoop没接触的同学可以下载看看如何入门~

2018-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

生活不止眼前的枸杞，还有蜂蜜和咖啡！