Total Order Partitioner

http://blog.csdn.net/xuefei2/article/details/51678531   博客地址就非常好!!!

2017-02-11 21:52:14

阅读数 269

评论数 0

spark的一点总结

1.要知道1个线程也是可以运行多个task的!只不过如果同时运行多个task就会出现运行一会儿这个,运行一会儿那个,这样轮流运行的情况! 2.读取本地文件和hdfs文件的分区数(partition数)是不一样的! 3.可以用sparkconf在setMaster之后设置并行度,也就是线程数,同...

2016-12-09 15:37:07

阅读数 706

评论数 0

kafka

1.安装zk集群 2.config/server.propertites 添加zk地址:zookeeper.connect=node01:2181,node-02/;2181,node-03/:2181 修改broker.id(唯一的):broker.id=0 3.启动 ...

2016-12-07 09:46:29

阅读数 267

评论数 0

sparkStreaming与storm的简单对比

1.sparkStreaming其实也是准实时的,而storm是实时的,storm是来一条处理一条,sparkstreaming是每次处理一堆数据,但是sparkstreaming的优势是吞吐量有优势!

2016-12-06 16:27:00

阅读数 471

评论数 0

Spark的cache与checkpoint优化

1.SPARK中一些通用的或者重要的RDD最好是做一个cache缓存,缓存到内存或者硬盘中,这样下次用到这个RDD数据的时候就不用从头开始计算了,直接从缓存读取即可! 2由于某种原因也可能我们用cache或者Persist缓存的RDD数据,也可能会出现缓存这些数据的一部分机子突然挂掉等,如果此时...

2016-12-05 20:37:14

阅读数 1203

评论数 0

大数据的大公司

要想进大数据公司的大公司,他要求你的基本功要扎实,比如快速排序,二分法查找,红黑树,二叉树,单例模式,多线程,JVM都要会写!

2016-12-05 10:57:30

阅读数 266

评论数 0

Spark自定义排序

1.Spark的自定义排序只需要实现Ordered trait,T传入当前类即可,并实现里面的compare方法,并且实现Serializable trait即可! 2.当然也可以用隐世转换的形式!

2016-12-05 10:07:29

阅读数 213

评论数 0

Spark分区器HashPartitioner

在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。 我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区...

2016-12-04 22:31:33

阅读数 583

评论数 0

Spark随记

重要:http://homePage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html 上面这个网址可以学习好多spark的API函数的具体使用,简单易学! 当spark程序从HDFS上读取数据时,默认是一个block生成一个分区! ...

2016-12-04 21:25:01

阅读数 196

评论数 0

Spark常用函数:transformation和action

1、RDD提供了两种类型的操作:transformation和action 所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。 1)transformation操作:得到一个新的RDD,比...

2016-12-04 18:33:46

阅读数 420

评论数 0

IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter,语句完成 “!”,否定完成,输入表达式时按 “!”键 Ctrl+E,最近的文件 Ctrl+Shift+E,最近更改的文件 Shift+Click,可以关闭文件 Ctrl+[ OR ],可以跑到大括号的开头与结尾 Ctrl+F12,可以显示当前文件的...

2016-12-04 14:59:42

阅读数 246

评论数 0

Hadoop文件系统元数据fsimage和编辑日志edits

在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件: 1 current/ 2 |-- VERSIO...

2016-12-03 14:59:10

阅读数 216

评论数 0

MapReduce端的二次排序以及对移动计算而不是移动数据的理解

, 1.其实MapReduce的二次排序是我们定义的sort排序会执行两遍,第一遍是在map端执行,针对一个map任务的(当partition之后的将数据写入到内存缓冲区的时候,达到内存缓冲区的80%的时候就会spill到disk,此时disk是作为硬盘缓存的,所以我们的数据在硬盘上可以sort...

2016-12-02 22:28:06

阅读数 4227

评论数 3

scala的抽象类、抽象字段、抽象方法

1.抽象类是声明用abstract 2.方法是抽象方法 在抽象类中只需要定义方法,没有实现 3.字段是抽象方法 在抽象类中不给字段进行赋值 4.代码 packagecom.jn.scala.oop /**  * @authoradmin  ...

2016-11-22 10:24:35

阅读数 1364

评论数 0

scala入门之变量定义

看看下面这个地址中的一些说明:   https://my.oschina.net/fhd/blog/273952

2016-11-22 08:55:43

阅读数 290

评论数 1

nginx一些内置的变量

HTTP核心模块支持一些内置变量,变量名与apache里的对应。比如 $http_user_agent,$http_cookie等表示HTTP请求信息的变量。 更多变量: $args, 请求中的参数; $content_length, HTTP请求信息里的"Content-Len...

2016-11-18 10:55:40

阅读数 212

评论数 0

Hbase中的Rowkey设计原则

收藏一个地址:http://blog.csdn.net/javajxz008/article/details/51892967 上面这个博客里讲到的Hbase的rowkey的设计原则还可以

2016-11-18 10:48:26

阅读数 303

评论数 0

Flume

1.在java中,类的成员变量不用初始化即可直接使用,JVM会自动初始化,原始变量如int char short long byte初始化为0,float double初始化为0.0,boolean初始化为false,对象初始化为null 2.flume的关键点:source、channel...

2016-11-17 17:18:47

阅读数 219

评论数 0

电商Hadoop项目第一天

1.通过页面埋点将数据带回到服务器端!     window.navigator.userAgent可以获得浏览器,操作系统的信息!     window.navigator.language 可以获取语言信息(F12搜索)      2.通过客户端ip获取地域信息! 3.ETL...

2016-11-17 10:52:05

阅读数 1676

评论数 0

zookeeper

1.YARN主要包括:ResourceManager,NodeManager,ApplicationMaster,Container;   MapReduce作业提交之后,在nodeManager节点首先会new 一个ApplicationMaster,然后ApplicationMaster向R...

2016-11-15 19:54:42

阅读数 1258

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭