- 博客(8)
- 资源 (4)
- 收藏
- 关注
转载 Spark Streaming 数据接收优化
Spark Streaming 数据接收优化字数570 阅读1206 评论1 喜欢5看这篇文章前,请先移步Spark Streaming 数据产生与导入相关的内存分析, 文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。这篇内容是个人的一些经验,大家用的时候还是建议好好理解内部的原理,不可照搬让Receiver均匀的分布到你的Ex
2016-10-10 20:26:47 1463
转载 Spark Streaming 数据产生与导入相关的内存分析
Spark Streaming 数据产生与导入相关的内存分析字数1430 阅读2128 评论3 喜欢10前言我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。一个大致的数据接受流程一些存储结构的介绍哪些点可能导致内存问题,以及相关的配置参数另外,有位大牛写了Spark Streaming 源码解析系列,我觉得写
2016-10-10 20:25:40 366
转载 Hive 设置map 和 reduce 的个数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有
2016-10-09 17:07:41 822 1
转载 使用 FileSystem JAVA API 对 HDFS 进行读、写、删除等操作
使用 FileSystem JAVA API 对 HDFS 进行读、写、删除等操作 分类:MapReduce(67) Hadoop文件系统 基本的文件系统命令操作, 通过hadoop fs -help可以获取所有的命令的详细帮助文件。 Java抽象类org.apache.hadoop.fs.FileSystem定义了hadoop的一个文件
2016-10-09 15:28:27 844
原创 hive count(*)问题处理
现象:在Hive 中执行select语句,在生产环境正常,而测试环境select count(*) ,并且测试环境中直接非聚合select 语句也正常处理:在控制错误非常简单,直接返回2错误代码。到yarn 资源管理器中查看,好像资源不足的原因 。开始想到hive 参数,对生产环境和测试环境的hive 配置文件进行对比,没有发现异常。接着考虑的yarn 资源分配的问题,查看yarn 资源配置
2016-10-05 19:29:58 8129
转载 Hadoop中的几种文件格式
Hadoop中的几种文件格式发表于2016/8/1 19:50:28 241人阅读分类: HadoopHadoop中的文件格式大致上分为面向行和面向列两类:面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一
2016-10-05 17:01:54 4993
转载 Yarn 内存分配管理机制及相关参数配置
Yarn 内存分配管理机制及相关参数配置理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。关于Yarn的详细介绍请参考【Hadoop Yarn详解】一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几
2016-10-05 15:56:31 1018
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人