大数据
文章平均质量分 53
TOMSCUT
这个作者很懒,什么都没留下…
展开
-
Hadoop格式化时Namenode启动失败解决方案
确保各个节点的zookeeper已经启动。启动各个zookeeper,命令(./zkServer.sh start);检查各个节点zookeeper的状态,命令(./zkServer.sh status)。手动启动journalnode进程。启动各个Namenode上的 journalnode进程,命令(./ hadoop-daemon.sh start journalnode);检查jour原创 2018-01-14 22:43:57 · 2469 阅读 · 0 评论 -
org.apache.thrift.TApplicationException: Invalid method name问题解决
在调用Thrift接口时,报出的错误(org.apache.thrift.TApplicationException: Invalid method name)。1 检查调用的ip和端口是否正确。2 检查客户端和服务端采用的协议是否一致。...原创 2018-06-01 08:55:51 · 14891 阅读 · 0 评论 -
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决
在编译Spark源码的时候,遇到了该问题,有两种可能的问题存在。第一种:在spark 文件夹下的pom.xml里加入如下依赖,源码编译就没有报错成功编译出来了。修改spark源码下的 pom.xml 文件<dependency> <groupId>net.alchim31.maven</groupId> <artifactId...原创 2018-06-01 08:51:03 · 12740 阅读 · 3 评论 -
构建大数据ETL通道--Json数据的流式转换--Json转Parquet(三)
如果生成的日志数据是Avro格式,可直接采用上一篇的方式(https://blog.csdn.net/qq_29829081/article/details/80518671),将Avro数据转储为Parquet。但是我们一般都是日志数据不是Avro,大部分是Json数据。因此,本篇主要讲如何将Json通过Morphline流式转储为Parquet数据。文章中只是简单的例子,在实际生产环境中,我们...原创 2018-06-01 08:41:50 · 2747 阅读 · 0 评论 -
构建大数据ETL通道--Json数据的流式转换--Avro转Parquet(二)
如果我们生成的日志是Avro格式的文件,那么可以直接采用kite-dataset将Avro数据流式转换成Parquet数据进行存储,并在Hive进行查询。以下是具体步骤。1 创建dataset ./kite-dataset create dataset:hdfs://test/user/litao/test/parquet/litao/ --schema litao.avsc --form...原创 2018-05-31 08:32:59 · 2042 阅读 · 3 评论 -
Ambari agranfa启动失败
采用Ambari搭建的大数据平台,agranfa启动失败。 通过查询日志/var/log/ambari-metrics-grafana,发现有如下报错: [web.go:93 StartServer()] [E] Fail to start server: listen tcp 0.0.0.0:3000: bind: address already in use ...原创 2018-05-31 08:23:59 · 1419 阅读 · 0 评论 -
构建大数据ETL通道--Json数据的流式转换--Json转Avro(一)
公司之前收集日志数据,采用的是Json格式(因为原始日志格式就是Json的)。采用Json格式的优点是开发简单、数据可读性强;缺点是占用的存储空间太大、相应Hive表的查询速度很慢。因此,我们开展调研工作,准备解决这两个痛点。调研的过程分了很多步,接下来我将写几篇文章来大概描述一下。因为也是在探索,有的工作做得不是很充分,大家可以多提建议,共同交流。为了提高数据的传输效率,我们打算将日志的生成格式...原创 2018-04-19 20:26:18 · 1938 阅读 · 1 评论 -
Hadoop distcp命令遇到的异常及解决方案
1 异常信息 Caused by: java.io.IOException: Mismatch in length of source:hdfs://xxx and target:hdfs://xxx2 原因 需要远程复制的文件没有关闭,还处于写的状态。3 解决方案:1) 检查文件状态hdfs fsck hdfs://14.29.89.227:8020/flume/h...原创 2018-03-18 21:55:06 · 7532 阅读 · 3 评论 -
Ambari配置邮件警告--监控大数据平台
1 打开管理界面2 创建Alert3 编辑内容-- Name:自定义-- Group:Ambari提供了一些默认的警告方案,也可以自定义。每个Group包含的报警信息都可以自己配置。-- Severity:发送报警的级别。包含:OK,WARNING,CRITICAL,UNKNOWN。-- Description:自定义。-- Method:发送方式。包含Email和SNMP。-- Email To...原创 2018-03-18 21:37:15 · 2629 阅读 · 0 评论 -
Ambari搭建大数据平台教程(HDP)
搭建测试环境本文是公司搭建测试环境大数据平台时总结的,按安装相应版本的官方文档的步骤翻译过来的。其中遇到了一些问题,相应的解决方案也都一一列举了。按照这个方式一定可以搭建成功。基本信息:系统:Ubuntu-14.04.1JDK版本:jdk-8u111SCALA版本:MySQL数据库:各个服务器的角色:172.28.44.120:nn0172.28.44.121...原创 2018-02-13 18:47:29 · 16827 阅读 · 0 评论 -
SparkMLlib的数据类型讲解
SparkMLlib的数据类型讲解Mllib支持单机上存储的本地向量和矩阵,也支持由一个或者多个RDD支持的分布式矩阵。本地向量和本地矩阵是简单的数据模型,用作公共接口。由Breeze提供基本的线性代数运算。。在监督学习中使用的训练示例在MLlib中被称为“labeled point”一 本地向量本地向量存储于单台机器,其拥有整类型的行,从0开始的索引,和double类型的转载 2018-01-14 23:10:08 · 1002 阅读 · 0 评论 -
sqoop从mysql导数据到hive异常
1 异常信息:com.mysql.jdbc.exceptions.jdbc4.MySQLDataException: '18446744073387431615' in column '5' is outside valid range for the datatype BIGINT. at sun.reflect.NativeConstructorAccessorImpl.newIn...原创 2018-07-25 09:01:51 · 819 阅读 · 0 评论