博客专栏  >  云计算/大数据   >  大数据-Hadoop-Spark

大数据-Hadoop-Spark

主要介绍大数据生态圈的相关内容,记录做大数据项目时遇到各种问题

关注
2 已关注
19篇博文
  • hdfs上传文件的源码分析

    之前上传下载hdfs文件都是使用的IOUtils.copyBytes(...),不过也看见过别的方式FileSystem.copyFromLocalFile(boolean delSrc, boole...

    2015-05-22 11:18
    661
  • hdfs rack机架感知配置

    大型Hadoop集群以机架的形式来组织的,同一个机架上不同节点间的网络状况比不同机架之间更为理想,默认情况下,hadoop的机架感知是没有被启用的。 所有的机器Hadoop都默认在同一个默认的 机架...

    2015-09-21 16:35
    2116
  • hadoop web 端口安全认证

    Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。 1、修改core-site.xml,增加如下内容,配置完成后拷贝到...

    2015-09-21 17:58
    965
  • YARN/MRv2 MRAppMaster深入剖析—推测执行机制

    1. 背景 推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的ta...

    2015-09-23 18:06
    478
  • Hadoop的hadoop-config.sh脚本详解

    先简要说明下我的读该脚本的环境,集群是CDH5.3,在研究命令行中hadoop -jar ***.jar命令的相关脚本时,在hadoop文件中追到了hadoop-config.sh这个文件,所以下边的...

    2015-11-25 16:27
    2229
  • Hadoop常见错误及解决办法

    1,错误一:java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后 2014-04-29 14:32:53,877 FAT...

    2015-11-30 18:11
    1616
  • hadoop执行jar流程分析

    项目要结束了,最近在整理项目的相关文档,之前项目中在用hadoop jar **.jar提交作业时,设置了些公共依赖jar包到CLASSPATH中,这样算子在打包时就不需要把很多jar包再打进去离开 ...

    2015-12-15 09:49
    2593
  • Hadoop提交Job Client端源码分析

    在之前分析了hadoop执行jar的流程分析(博客链接http://blog.csdn.net/a822631129/article/details/50310903),分析到了执行用户写的mapre...

    2015-12-17 15:03
    942
  • 动态代理

    在hadoop中,DataNode和NameNode之间的控制信息的交流是通过RPC机制完成的,采用的是动态代理和Java NIO的方式。DataNode端是通过获得NameNode的代理,通过该代理...

    2016-04-20 12:21
    401
  • 使用QJM构建HDFS HA架构(2.2+)

    本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。   一、背景     HDFS集群中只有一个Namenode,这就会引...

    2016-05-04 10:55
    349
  • spark性能调优官方文档

    该文指出了Spark程序优化所需要关注的几个关键点——最主要的是数据序列化和内存优化。对于大多数程序而言,采用Kryo框架以及序列化能够解决性能有关的大部分问题。

    2015-10-09 10:13
    531
  • Spark集成Kafka源码分析——SparkStreaming从kafak中接收数据

    整体概括: 要实现SparkStreaming从kafak中接收数据分为以下几步(其中涉及的类在包org.apache.spark.streaming.kafka中): 1.创建createStrea...

    2015-12-18 17:33
    1544
  • 实现CDH支持Spark SQL功能

    CDH内嵌spark版本不支持spark-sql,可能是因为cloudera在推自己的impala;如果上线spark却不能使用sql这种结构化语言,对于大部分分析人员其实是很不爽的!so,就手动实现...

    2016-08-11 13:47
    4243
  • Spark性能优化指南——基础篇

    前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计...

    2016-11-30 15:17
    307
  • Spark性能优化指南——高级篇

    前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 ...

    2016-11-30 15:29
    263
  • Spark Streaming 教程文档--概述、基本概念、性能调优

    SparkStreaming教程 本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。 1      概述 1.1  SparkStreaming是什么 Spark S...

    2017-03-31 17:05
    1228
  • Spark RDD操作:combineByKey函数详解

    当数据集一键值对形式组织的时候,聚合具有相同键的元素进行一些统计是很常见的操作。对于Pair RDD常见的聚合操作如:reduceByKey,foldByKey,groupByKey,combineB...

    2017-04-26 14:16
    415
  • spark 朴素贝叶斯(naive bayes)模型save与load优化

    Spark MLLIB中Naive Bayes(朴素贝叶斯)分类模型的保存与加载速度在实际应用场景中,比较慢,先对朴素贝叶斯模型save与load进行优化。优化后,save与load速度提高很多倍(优...

    2017-04-27 17:00
    1446
  • Ansj中文分词使用教程

    摘要: ansj是一个基于n-Gram+CRF+HMM的中文分词的java实现. ansj分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 Ansj目前实现了.中文...

    2016-08-26 19:48
    9595
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部