大数据
小船长的炒菜猫
不积跬步无以致千里,不积小流无以成江海
展开
-
DataX实战应用
目录前言系统架构关键实现系统目前使用现状DataX使用心得前言DataX是阿里开源数据同步工具,实现异构数据源的数据同步,Github地址:https://github.com/alibaba/DataX,企业存储离线数据到数仓,但是没办法对接业务,本次实践主要是运用DataX实现数据从数仓导入到MySQL,从而对接业务,另外,对数仓数据的流出进行管理。一般从数仓数...原创 2018-09-03 22:50:31 · 22559 阅读 · 30 评论 -
Spark常见问题解决
这俩天总结了在写Spark Job的时候遇到的一些问题,写在这里,以后遇到了方便查看。1.Error:(64, 64) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by ...原创 2018-10-29 12:25:46 · 3229 阅读 · 0 评论 -
Spark错误:class needs to be abstract, since: it has n unimplemented members
一般情况下在Spark项目里面只会写一些数据处理的job,但是偶尔也会有一些特别的需求,这里需要定义一个商品(Sku)的类,写惯了Java的代码,写个bean应该也不难。class SkuInfo { var skuCode: String var skuName: String def _skuCode(skuCode_ : String): Unit = { sk...原创 2019-01-19 16:34:34 · 1414 阅读 · 0 评论 -
Linux安装Kudu+Impala(RedHat or CentOS)
首先查看系统的版本,RedHat和CentOs通过cat /etc/redhat-release查看版本,这里我的系统版本是CentOS Linux release 7.3.1611 (Core)其他系统查看版本参考:https://www.cnblogs.com/wzk-0000/p/7483262.html一、安装Kudu1. 下载cloudera-kudu.repo地址:h...原创 2019-02-20 14:18:25 · 2930 阅读 · 1 评论 -
Hive或者Impala查询错误:The query did not generate a result set!
今天在测试Impala的jdbc时,出现了一个很奇怪的错误Exception in thread "main" java.sql.SQLException: The query did not generate a result set! at org.apache.hive.jdbc.HiveStatement.executeQuery(HiveStatement.java:477...原创 2019-02-20 21:03:10 · 4987 阅读 · 0 评论 -
Impala安装和使用问题汇总
近日调研了Kudu+Impala大数据存储引擎,在安装和使用的过程中也遇到不少问题,解决起来也是不容易(lz比较菜鸟),在这里记录一下,也当是分享吧。1.Impala不能创建表,提示权限的问题具体情况:[data.beta.com:21000] > create table user_data(user_id string,code string,value string);...原创 2019-02-20 21:20:13 · 7801 阅读 · 0 评论