- 博客(11)
- 资源 (15)
- 收藏
- 关注
原创 SparkRDD的一些使用经验
要减少shuffle的开销,主要有两个思路:减少shuffle次数,尽量不改变key,把数据处理在local完成;减少shuffle的数据规模。先去重,再合并比如有A、B这样两个规模比较大的RDD,如果各自内部有大量重复,那么二者一合并,再去重:A.union(B).distinct()这样的操作固然正确,但是如果可以先各自去重,再合并,再去重,可以大幅度减小s
2017-01-24 17:10:30 947
转载 Hadoop YARN新特性—label based scheduling
Hadoop YARN新特性—label based scheduling 网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-label-based-scheduling/在最新的hadoop 2.6.0版本中,YARN引入了一种新的调度策略:基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异
2017-01-24 11:40:59 622
原创 Anaconda使用总结
Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打包,方便pythoners直接使用,此外,还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版,最
2017-01-21 14:35:36 540
转载 SparkSql Data Sources(数据源)
Spark SQLSpark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,最重要的是它可以支持用HiveQL从hive里面读取数据。
2017-01-18 15:35:55 879
原创 SparkStringApplication进行升级时保证零丢失
升级SparkStreaming Application代码在对StreamingApplication项目进行升级时,此时如果代码发生改变的话,有两种方式可以做到。1. 升级的代码和旧的代码同时运行起来,(接收同样的数据)直到新程序能够稳定的运行。旧的程序就可以停掉。注意: 这种方式只支持能够将数据发送到两个不同的地址(新程序和老程序)的数据源,比如kafka。2.采用优雅关闭c
2017-01-16 12:18:21 705
原创 python安装使用
今天测试python的各种库的使用,scipy安装总是失败,采用知乎上的回答,将包后缀名改为zip,然后解压放到python的sitepackage中,就能引用了。不过这貌似并没有解决根本问题,引用的时候会报错。cannot import name 'moduleTNC' #4830好吧还一种适合小白的方式。直接上Anaconda 进行安装(好处是各种pytho
2017-01-15 15:06:14 1190
原创 Spark-Streaming KafkaDirectDStream checkpoint的原理
JobGenrerator.generateJobs负责Streaming Job的产生,产生并且提交执行Job之后,会发送DoCheckpoint事件,源码如下:[java] view plain copyprivate def generateJobs(time: Time) { // Set the SparkEnv in t
2017-01-08 19:28:44 2123
转载 Hbase总结 Hhase性能调优
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonSe
2017-01-05 17:24:19 515
转载 决定Spark RDD分区算法因素的总结
RDD在调用引起Shuffle的方法的时候,如果没有显示指定ShuffledRDD的分区,那么会调用Partitioner.defaultPartitioner方法来确定ShuffledRDD的分区,比如RDD.combineByKey:[java] view plain copy def combineByKey[C](createCombin
2017-01-02 23:21:08 640
原创 Hive文件存储格式 :Parquet sparksql ,impala的杀手锏
Hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大 数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以的形式序列化到文件中存储方式:行存储可分割 压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。3.rcfile存储方式:数据按行分块 每
2017-01-01 22:50:40 6143
转载 hive优化之——控制hive任务中的map数和reduce
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大
2017-01-01 15:49:15 484
useragent解析逻辑&手机品牌匹配.txt
2021-11-22
shakespeare.json&logs;.jsonl.gz&accounts;.zip
2018-01-10
kafka-manager 1.3.3.15
2018-01-08
百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全
2017-10-16
数据仓库工具箱 维度建模权威指南 第3版
2017-10-16
IDEA 创建scala工程并打指定的依赖包
2017-08-11
hbase自定义Comparator进行数值比较
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人