大数据平台开发笔记(hadoop|storm|spark)
panguoyuan
本博客主要作为学习笔记、成长足迹,仅供学习交流使用
展开
-
Presto on yarn解决方案
Deploying Presto on a YARN-Based Clusterpresto不像spark那样默认就支持yarn,spark与yarn兼容性很好, 只需要简单的配置下启动脚本和集群环境就可以在Yarn上运行spark任务。presto则不然它需要借助于slider。通过slider实现presto on yarn。Yarn是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。所以此方案就是把presto的应用提交到原创 2017-09-26 19:01:53 · 6112 阅读 · 11 评论 -
Kafka安装配置(kafka_2.9.2-0.8.1.1)
1.本次选用3台机器测试2.原创 2014-11-19 16:08:57 · 2277 阅读 · 0 评论 -
Kafka监控工具KafkaOffsetMonitor
1.下载KafkaOffsetMonitor-assembly-0.2.0.jar 网盘地址:http://pan.baidu.com/s/1eQgYZOA 密码:rd5y2.在服务器上创建kafka-offset-console目录3.把下载好的文件上传到刚刚创建的目录下4.创建监控程序运行的产生的日志输出目录:/app/kafka-offset-console/logs5原创 2015-03-23 18:51:05 · 4717 阅读 · 0 评论 -
自定义HbaseSink输出采集日志到Hbase
前提: 当前机器都安装用hbase,hadoop,flume,如果没安装有hbase和hadoop的可能会少一些依赖,把core-site.xml,hdfs-site.xml,hbase-site.xml配置文件拷贝到Flume安装目录的conf目录下,打jar包的时候只需要把下面的java类打进去即可,不需要别的依赖。1、编写Serializerpackage com.pang原创 2015-03-03 16:28:50 · 3732 阅读 · 0 评论 -
Spark集群基于Zookeeper的HA搭建部署笔记
1.环境介绍(1)操作系统RHEL6.2-64(2)两个节点:spark1(192.168.232.147),spark2(192.168.232.152)(3)两个节点上都装好了Hadoop 2.2集群2.安装Zookeeper(1)下载Zookeeper:http://apache.claz.org/zookeeper ... keeper-3.4.5.tar.gz(2原创 2015-01-26 15:46:05 · 3789 阅读 · 0 评论 -
Hadoop2.2集群安装配置-Spark集群安装部署
配置安装Hadoop2.2.0 部署spark 1.0的流程一、环境描述本实验在一台Windows7-64下安装Vmware,在Vmware里安装两虚拟机分别如下主机名spark1(192.168.232.147),RHEL6.2-64 操作系统,用户名Root从机名spark2(192.168.232.152),RHEL6.2-64 操作系统,用户名Root 二、环境准备原创 2014-10-18 14:13:04 · 1747 阅读 · 0 评论 -
JavaAPI访问Hadoop2.2HA的配置下访问Hbase0.96.2
1、确保Hadoop和Hbase服务已经正常启动了2、把hbase-site.xml,core-site.xml,hdfs-site.xml配置文件放到Java工程的src目录下3、引入相关的依赖包4、Java Client测试访问Hbase集群package com.hbase.test;import java.util.ArrayList;import jav原创 2015-01-28 10:33:33 · 1709 阅读 · 0 评论 -
Hive常用命令
1、insert overwrite local directory '/root/develop/data' select t.* from minute_count t;insert overwrite directory '/tmp/minute_count' select t.* from minute_count t;原创 2014-08-27 17:53:40 · 580 阅读 · 0 评论 -
京东电商大数据实践
京东大数据平台从无到有,从集中式到分布式,从Oracle数据仓库到JDW2.0,在演变过程中一直在思考的两个问题:1、如何建设电商特有的复杂业务的数据仓库?2、如何在保障安全的情况下降低使用数据的成本?从下面的内容中似乎能够看到这些问题的答案。转载 2014-10-17 18:01:05 · 2121 阅读 · 0 评论 -
关于Hive内存溢出的问题
待解决:在Hive mapred.child.java.opts -Xmx4096m原创 2014-09-03 11:08:13 · 4073 阅读 · 0 评论 -
Hadoop日志分析系统启动脚本
Hadoop日志分析系统启动脚本#!/bin/bash#Flume日志数据的根目录 root_path=/flume#Mapreduce处理后的数据目录 process_path=/process#hive分区时间 partition=`date "+%Y-%m-%d"`#获取前一小时的时间:/YYYY-MM-DD/HH file_path=`date -d "1 hour原创 2014-10-16 18:53:03 · 1149 阅读 · 0 评论 -
Storm启动异常[ERROR] Error when processing event,Supervisor启不来
当storm服务非正常终止(如关机没关虚拟机,或机器断电)时,下次再启动storm时会报如下错误2015-03-28 02:26:08 b.s.d.supervisor [INFO] Starting supervisor with id 7466cd48-9ca2-4957-844c-c03fa1ce7ca9 at host storm12015-03-28 02:26:08 b.s.原创 2015-03-28 17:47:23 · 2380 阅读 · 0 评论 -
apache kafka系列之kafka.common.ConsumerRebalanceFailedException异常解决办法
kafka.common.ConsumerRebalanceFailedException :log-push-record-consumer-group_mobile-pushremind02.lf.xxx.com-1399456594831-99f15e63 can't rebalance after 3 retriesat kafka.consumer.ZookeeperConsumer转载 2015-03-11 17:25:26 · 1199 阅读 · 0 评论 -
Kafka Manager安装笔记
1、下载已经编译好的kafka-manager-1.0-SNAPSHOT.zip 百度网盘:http://pan.baidu.com/s/1i349zet 密码:9vfk2、解压到指定的安装目录:unzip kafka-manager-1.0-SNAPSHOT.zip3、修改conf/application.conf文件kafka-manager.zkhosts=设置为自己z原创 2015-03-23 10:56:41 · 2475 阅读 · 1 评论 -
Spark-2.1.0-hadooop-2.6.0-cdh5.7.0源码编译
目前 Spark 编译脚本已经将Maven 集成进来了,以方便编译以及部署。这个脚本将会在它本地 build/ 编译目录自动下载和安装所有编译过程中所必需的( Maven,Scala 和 Zinc )。可以手动修改dev/make-distribution.sh脚本,使其选择自己安装好的Maven,如果不修改这个脚本会自动安装所需要的编译环境。确保编译的机器能正常访问外网,建议在测试环境编译,生产上对网络做各种限制,即便开通了代理也还会报各种诡异在错误。原创 2017-07-04 15:04:10 · 2326 阅读 · 2 评论 -
eclipse-spark开发环境
1、从spark 官网下载的都是使用Scala2.10编译的,别的版本很少编译过,用scala2.11.7报如下错误Description Resource Path Location TypeMore than one scala library found in the build path (D:/scala-SDK-4.3.0-vfinal-2.11-win3原创 2016-06-24 12:02:48 · 2022 阅读 · 0 评论 -
解决Win7下eclipse运行Mapreduce程序解决办法汇总
解决Win7下eclipse运行Mapreduce程序解决办法汇总(第2-3步需要的winutils.exe和hadoop.dll可以下载hadoop-common-2.2.0-bin-master)1、首选把hadoop安装包解压放到windows指定的目录下2、需要winutils.exe这个文件放到hadoop主目录的bin目录下,然后配置环境变量(HADOOP_HOME和Path)原创 2014-07-11 14:23:36 · 3017 阅读 · 0 评论 -
nginx+tomcat负载均衡实现session共享
nginx,tomcat负载均衡原创 2015-09-05 09:27:18 · 1093 阅读 · 0 评论 -
Hadoop 2.2HA配置问题说明
当把hdfs haadmin -transitionToActive namenode1原创 2014-09-18 14:57:51 · 1360 阅读 · 0 评论 -
Flume使用笔记
1、当一台机器运行多个flume脚本,时执行:ps -aux|grep flume会输出很多个进程出来,且当本地的环境变量配置很多时(如:Hadoop,Hbase...),此时会在控制台打印很多JVM加载的依赖,没办法看哪个进程运行了哪个flume脚本。此时可以根据端口来找:(1)netstat -nlpt|grep 44444(2)第(1)步可以看到对应的进程号,只需要将该进程号kill原创 2015-04-14 17:30:02 · 1374 阅读 · 0 评论 -
hadoop配置好之后启服务,jps能看到datanode进程,可是后台的datanode日志有如下错误,且50070端口上也是没有活的节点
2015-04-22 14:17:29,908 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: For namenode master/192.168.1.100:53310 using DELETEREPORT_INTERVAL of 300000 msec BLOCKREPORT_INTERVAL of 21600000msec I原创 2015-04-22 17:20:53 · 4357 阅读 · 0 评论 -
Flume-ng-1.4.0安装及运行遇到问题总结
1、到官方网上下载apache-flume-1.4.0-bin.tar.gz原创 2014-09-25 18:27:45 · 17847 阅读 · 3 评论 -
storm提交topology时supervisor无法创建worker
问题描述 在本地eclipse运行是好好的,可是提交到集群上去之后什么都没反应。提交topology之后,在storm UI上看topology的worker数与在程序里设置的值是一样的,但是到对应的机器去查看的时候,发现那个worker并没有存在,在日志目录下也没有找到worker的日志,提交topology也并没有报什么错误提示,所以很茫然,此时倒是很希望它弄出一个错误出来好去定位问题,原创 2015-04-03 11:26:20 · 3106 阅读 · 1 评论 -
自定义FlumeKafkaSink
1、自定义FlumeKafkaSinkpackage com.panguoyuan.flume.sink;import java.util.Iterator;import java.util.Map;import java.util.Map.Entry;import java.util.Properties;import kafka.javaapi.producer.Produc原创 2015-03-23 14:08:48 · 2728 阅读 · 0 评论 -
Flume一个数据源对应多个channel,多个sink
一、概述1、现在有三台机器,分别是:Hadoop1,Hadoop2,Hadoop3,以Hadoop1为日志汇总2、Hadoop1汇总的同时往多个目标进行输出3、Flume一个数据源对应多个channel,多个sink,是在consolidation-accepter.conf文件里配置的二、部署Flume来采集日志和汇总日志1、在Hadoop1上运行fl原创 2014-10-10 16:33:19 · 11582 阅读 · 0 评论 -
Hadoop 2.2下的Sqoop-1.99.3配置部署
1、Hadoop2.2已经确保安装完成2、下载Sqoop:http://mirrors.cnnic.cn/apache/sqoop/1.99.3/sqoop-1.99.3-bin-hadoop200.tar.gz3、原创 2014-08-27 16:01:57 · 3626 阅读 · 1 评论 -
Sqoop导入导出命令集
1、从hdfs上把数据导出到关系型数据库(mysql)sqoop export --connect jdbc:mysql://Ip:3306/recommendation --username root --password 123456 --table recommendation --export-dir hdfs://10.71.197.94:8020/output/result/ --原创 2014-07-25 11:44:51 · 1171 阅读 · 0 评论 -
Hadoop运行Mapreduce作业时报错:java.lang.OutOfMemoryError: Java heap space
当运行Hadoop运行Mapreduce作业时报错:java.lang.OutOfMemoryError: Java heap space原创 2014-07-23 17:27:24 · 8058 阅读 · 0 评论 -
如何自定义mapreduce在输出的key和value之间自动添加的分隔符
背景:我在用mahout做一个推荐原创 2014-07-23 13:23:35 · 4336 阅读 · 1 评论 -
Win7下的eclipse运行mapreduce程序报WordCount$TokenizerMapper not found
2log4j:WARN No such property [maxBackupIndex] in org.apache.log4j.DailyRollingFileAppender.log4j:WARN No such property [maxFileSize] in org.apache.log4j.DailyRollingFileAppender.SLF4J: Class path c原创 2014-07-21 15:40:57 · 3444 阅读 · 2 评论 -
Hive命令封装(笔记)
封装hive -e命令,使其实现hive -f功能并且支持传参数1、hiveF命令. /etc/profilesql=`java -jar /root/custom/lib/hiveF.jar $*`echo "$sql"hive -e "$sql"2、hiveUDF.jar及hiveF.jar的编写3、run-hivef.hqladd ja原创 2014-05-23 15:58:45 · 1625 阅读 · 0 评论 -
修改hadoop的core-site.xml的配置文件不需重启也生效了
fs.default.name hdfs://master:9000 hadoop.tmp.dir /root/hadoop_data/tmp fs.trash.interval原创 2014-04-24 17:48:47 · 9459 阅读 · 1 评论 -
hadoop源码导入到eclipse后程序报错,sun.net.util.IPAddressUtil这个类找不到与之应的jar包
hadoop源码导入到eclipse后程序报错,sun.net.util.IPAddressUtil这个类找不到与之应的jar包在eclipse>>window-preference->java->complier->errors/warning->deprecated and restricted API把 Forbidden reference 的Error改成warning原创 2014-04-25 16:59:13 · 3817 阅读 · 0 评论 -
Hadoop的datanode无法启动
2014-05-08 11:03:09,320 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG: /************************************************************STARTUP_MSG: Starting DataNodeSTARTUP_MSG:原创 2014-05-08 11:22:40 · 1546 阅读 · 0 评论 -
Cloudera Manager CDH4的安装
Cloudera Manager和CDH4的安装Cloudera-manager和cdh4安装有在线安装和离线安装,本文以离线安装的方式进行讲解。一、操作系统及软件的要求1、CDH4很多相关依赖包都是64位,所以操作系统要求是64位2、测试环境操作系统是Rhel6.2-x86-643、Cloudera Manager 4.5.24、JDK 1.6.0.315原创 2014-05-07 16:53:27 · 5532 阅读 · 0 评论 -
windows7下的eclipse运行Mapreduce程序的配置
1、配置windows7的hosts文件192.168.232.131 master131192.168.232.132 slave132192.168.232.133 slave133原创 2014-05-01 10:24:17 · 2883 阅读 · 0 评论 -
解决running beyond virtual memory limits. Current usage: 35.5 MB of 1 GB physical memory used; 16.8 G
[root@S1PA124 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output14/08/20 09:51:35 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..原创 2014-08-20 11:02:07 · 18221 阅读 · 0 评论 -
Hive安装好之后创建表时报错MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)原创 2014-08-20 15:42:31 · 2959 阅读 · 0 评论 -
在Hadoop2.2下安装配置Hive
1、下载apache-hive-0.13.1-bin.tar.gz2、在/root/install目录解压原创 2014-08-20 16:04:18 · 1338 阅读 · 0 评论 -
Hadoop使用总结
1、hadoop fs -du -h /flume/* 可以显示原创 2014-11-08 09:53:07 · 648 阅读 · 0 评论