2016年09月_Q博士

12月 10月 09月 08月 07月 06月 05月 03月 02月 01月

原创 Hbase rowkey hash化

这几天把流式计算系统跑起来了，跑了一天后，负责HBase的同学跟我说我存储的方式有问题，最后问题追踪到了hbase的rowkey问题上，也是很神奇问题存储过来的文件都是几十KB一个文件region split太多,一天后region增加到46个找问题因为第一次接触spark，第一次接触scala，反正从听说流式计算开始到现在也才一个月，新手一个。听到这个问题后也是很懵逼,反复跟Hbase的o

2016-09-30 14:43:24 7291 7

原创 kafka安装(单机模式)

开发spark程序需要一套本地的kafka环境

2016-09-24 01:34:54 884

原创 HBase安装(伪分布式)

参考文章 Hadoop2.7.2之集群搭建（单机） Hbae安装 Hbase伪分布版本hadoop 2.7.3hbase 1.2.3下载完解压缩hadoop配置 core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://local

2016-09-24 01:30:20 640

原创 Spark on yarn搭建实践

参考文章 Spark on YARN两种运行模式介绍 Yarn源代码分析之旅—总体架构—概述与总体架构

2016-09-08 11:38:54 407

原创 spark webui的展示

在standalone模式下，运行一个应用,我们来操作webui查看一些信息主页主页展示了如下信息概览工作中的slave运行中的应用已经完成的应用slave信息点击Workers列表中Worker Id任一条数据应用信息点击Running Applications列表中Application ID进入应用信息运行情况点击Running Applications列表中Name进入，完全新的

2016-09-02 23:44:41 4023

原创 spark streaming实例编写

运行第一个SparkStreaming程序（及过程中问题解决） Windows下IntelliJ IDEA中调试Spark Standalone sbt-assembly 发布 Scala 项目使用IDEA开发及测试Spark的环境搭建及简单测试基于spark运行scala程序（sbt和命令行方法）主要是实践一下scala开发项目的流程创建项目创建一个sc

2016-09-02 18:31:46 2560

原创 spark环境搭建(独立集群模式)

参考文章 Spark Standalone Mode 单机版Spark在Mac上简装笔记［0］大数据利器：Spark的单机部署与测试笔记spark 2.0.0下载最新版本2.0.0解压后进入目录解释standalone模式为Master-Worker模式，在本地模拟集群模式启动Master> sbin/start-master.sh打开http://localhost:8080

2016-09-01 22:49:11 3907