bigdata
shdqiu
这个作者很懒,什么都没留下…
展开
-
flume采集ftp上传文件到hadoop
flume服务器环境centos 7.2jdk 1.8flume 1.8hadoop平台环境centos7.2ambari 2.6.1hdp 2.6.4jdk 1.8一、 ftp安装与配置参考:https://blog.csdn.net/qq_39160721/article/details/80250975二、flume安装与配置参考 :https://blog.csdn.net/qq_3916...原创 2018-05-09 16:48:49 · 8423 阅读 · 0 评论 -
安装docker
一、 安装 Docker1. 在线安装Docker 软件包和依赖包已经包含在默认的 CentOS-Extras 软件源里,安装命令如下:yum -y install docker-io或者执行Yum install docker2. 离线安装下载 docker-ce-selinux-17.03.2.ce-1.el7.centos.noarch.rpmhttps://download....原创 2018-05-10 15:57:36 · 279 阅读 · 0 评论 -
安装docker hue 并导入到内部服务器
环境:Centos 7.2Hue因管理需求,内部服务器不能上外网,离线安装Hue又是很苦逼的活,于是考虑在外网环境安装docker 版的hue,然后导出镜像,再导入到内部服务器。前提准备安装docker外部服务器和内部服务器都需要安装docker,内部服务器需要离线安装docker,安装步骤参考:https://mp.csdn.net/postedit/80269209外部服务器安装Docker ...原创 2018-05-10 17:36:08 · 2445 阅读 · 4 评论 -
sqoop导orale 数据到HDFS 问题汇总
环境:数据源:oracle 11.2Ghadoop:ambari 2.6.1 hdp2.6.4sqoop :1.4.6出现的问题:问题1:ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: oracle.jdbc.OracleDrive...原创 2018-05-07 11:12:52 · 664 阅读 · 0 评论 -
ambari 下hadoop平台各类管理地址
环境:centos:7.2oozie:2.4ambari:2.6.1hdp:2.6.4python2:2.7.5python3:3.6.5spart:2.2.0Ambari 页面:http://localhost:8080hadoop管理界面:http://localhost:8088NameNode界面:http://localhost:50070HDFS NameNode界面:http://l...原创 2018-05-08 16:45:51 · 1546 阅读 · 0 评论 -
通过spark sql创建HIVE的分区表
今天需要通过导入文本中的数据到HIVE数据库,而且因为预设该表的数据会比较大,所以采用分区表的设计方案。将表按地区和日期分区。在这个过程出现过一些BUG,记录以便后期查看。 spark.sql("use oracledb") spark.sql("CREATE TABLE IF NOT EXISTS " + tablename + " (OBUID STRING, BUS_ID STRING,R...原创 2018-06-11 14:00:50 · 14210 阅读 · 0 评论 -
pypark处理文件异常处理。
环境:python:3.6spark:2.0datanode:3台,内存8g当使用通过spark加yarn的方式对一个4.6G的HDFS文件进行分析的时候,出现以下错误提示:org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 5 原因:分...原创 2018-09-05 09:18:36 · 299 阅读 · 0 评论 -
Yarn application has already ended! It might have been killed or unable to launch application master
环境:ambari+hdp 2.7.3出现背景:nodename服务器出现异常,发生重启。出现问题:以前能跑的pyspark脚本,运行的时候Yarn application has already ended! It might have been killed or unable to launch application master的错误。解决方法:1.在ambari中重启y...原创 2019-01-25 14:40:02 · 2810 阅读 · 0 评论 -
spark 日志带来的空间问题
环境:ambari +hdp2.6.4最近发现hdfs的空间越来越少,少到影响数据分析处理了。使用名称查看一下到底是谁占了空间:hadoop fs -du -h /发现有两个文件夹站的空间是最大的:一个是/app-logs一个是/spark2-history删除文件夹下内容设置定时清理:## spark2-history日志spark.history.fs...原创 2019-02-28 11:43:53 · 555 阅读 · 2 评论