博客专栏  >  云计算/大数据   >  大数据

大数据

更新大数据相关文章,包括hadoop,spark,Storm等相关内容。

关注
3 已关注
18篇博文
  • Storm ACK机制

    一、Ack是什么     为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪。 ack机制即, spout发送的每一条消息:  在规定的时间内,spout收...

    2017-08-19 10:03
    293
  • Storm通信机制

    Storm通信机制 Worker间的通信经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信:不同worker...

    2017-08-16 08:48
    321
  • Storm架构与运行原理

    一、Storm简介     Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。 S...

    2017-08-13 20:54
    1234
  • storm集群安装配置

    安装storm集群,需要依赖以下组件: ZookeeperPythonStormJDK 1.安装jdk 省略,安装jdk很简单,网上有很多教程,这里不再说明。 2.安装zookeeper 可以参...

    2017-08-12 09:07
    456
  • HBase启动失败,启动后自动退出

    2017-07-23 08:12:50,325 ERROR [main] master.HMasterCommandLine: Master exiting java.lang.RuntimeExce...

    2017-07-30 17:06
    549
  • Azkaban简介与使用

    一、Azkaban简介        Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建...

    2017-07-25 17:19
    1167
  • 使用浏览器访问azkaban报错:javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?

    javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security....

    2017-07-24 15:25
    1070
  • flume简介与安装配置

    一、flume简介Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数...

    2017-07-21 21:15
    974
  • hive基本结构与数据存储

    一、Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。还可以将 SQL 语句转换为 MapReduce 任务进行运行,通...

    2017-07-18 20:41
    1031
  • hive安装配置(hive1.2.1)

    环境centOS 7 hive的安装比较简单,只需要在一台机器上配置即可。 由于hive的一些功能要借助数据库实现,所以要先装好mysql。 一.安装MySql 在MySQL官网中下载YUM源...

    2017-07-18 11:05
    1318
  • 高可用性hadoop集群的搭建

    1.概述   在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下: 创建ha...

    2017-07-13 08:50
    383
  • MapReduce框架结构与运行流程

    Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程...

    2017-07-08 11:44
    771
  • HDFS体系结构及读写流程

    一、HDFS简介      HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时...

    2017-07-06 19:27
    964
  • Hadoop2.6.4集群安装配置

    修改hadoop-env.sh vi hadoop-env.sh找到export  JAVA_HOME一行,如下: 将其改为你的jdk路径(echo $JAVA_HOME可以查看jdk路径) 更改配...

    2017-07-02 13:30
    861
  • zookeeper的简单使用

    1.1.  zookeeper数据结构 1、层次化的目录结构,名符合常规文件系统规范(见下图) 2、每个节点在zookeeper中叫做znode,并且其有一个唯一的路径标识 3、节点Znode可以...

    2017-06-27 19:41
    124
  • hadoop上传文件错误org.apache.hadoop.ipc.RemoteException(java.io.IOException)

    搭建好hadoop后使用hadoop  fs  -put 命令上传文件发现失败,报了以下错误: 14/08/18 15:18:03 WARN hdfs.DFSClient: DataStreamer...

    2017-07-02 11:36
    2625
  • 配置zookeeper异常 Error contacting service. It is probably not running.以及java.net.ConnectException: 拒绝连接

    网上问题答案有许多种,一一试了一遍: 1. zoo.cfg配置文件中指定目录却没有创建! 创建相应目录即可。 //我的目录配置没有问题 2. zoo.cfg中dataDir指定路径为Myid文件的路径...

    2017-06-26 20:01
    1819
  • zookeeper集群安装与配置

    将zookeeper安装到三台机器上 1.首先下载安装包 这里我用的是zookeeper-3.4.5.tar.gz这个安装包 解压到/root/apps目录下,目录可以任选 tar -zxvf z...

    2017-06-26 22:11
    163

Deep Learning
3934
python
115536
Machine Learning
2110574
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部