
大数据
小小Tiny
这个人很懒,什么也没留下
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark的StandAlone运行模式环境搭建
一、Spark集群搭建版本:spark-2.1.0-bin-hadoop2.6安装:将spark解压到各节点的/opt目录下配置:(各节点配置相同)1. 进入spark配置文件夹:cd /opt/spark/conf2. 将slaves.template修改为slaves:mv slaves.template slaves3. 修改slaves文件,添加spark集原创 2018-01-25 14:24:57 · 715 阅读 · 0 评论 -
Spark中POJO与Dataset相互转换
0x0 Dataset转POJO方法:将查询出的结果转为RDD将RDD创建为DataFrame,并传入schema参数调用as方法,将Dataset转为相应的POJO Dataset调用collectAsList()方法代码如下:1.表结构+--------+---------+-------+|col_name|data_type|comment|+...原创 2018-03-05 15:26:06 · 5404 阅读 · 1 评论 -
Spark求平均值的三种方法
方法一:利用groupByKey //求平均 方法一: groupByKey textFile.mapToPair(line -> new Tuple2<>(line.split(" ")[0], Integer.parseInt(line.split(" ")[1]))) .groupByKey() ...原创 2018-03-06 11:23:53 · 25195 阅读 · 1 评论 -
使用REST接口调用Spark——Apache Livy使用笔记
0x0 Livy安装与运行登录官网:http://livy.incubator.apache.org/ 下载最新版 livy。 1. 解压 2. 配置:在conf/livy-env.sh中添加:export SPARK_HOME=path/to/sparkexport HADOOP_CONF_DIR=/etc/hadoop/conf进入bin文件执行#前台模式,...原创 2018-04-09 16:24:40 · 7485 阅读 · 0 评论 -
Hadoop和Spark设置用户访问hdfs
简单记录一下,以备不时之需:1.对于hadoop而言如果hadoop没有启Kerberos或者从Kerberos获取的用户为null,那么获取HADOOP_USER_NAME环境变量,并将它的值作为Hadoop执行用户。如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组。所以可以设置环境变量:export HADOOP原创 2018-03-27 11:48:38 · 13022 阅读 · 0 评论 -
CDH安装激活不了
我是把hosts文件中第一行中的主机名称去掉就好了!!!!!不知道具体原因!原创 2018-04-02 17:30:16 · 3927 阅读 · 0 评论 -
Spring or SpringBoot项目整合spark日志冲突解决
去除掉项目中所有的slf4j <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> </exclusion>原创 2018-04-03 09:57:29 · 1708 阅读 · 0 评论 -
MapReduce框架笔记——Shuffle过程详解
0x0 背景map-reduce是hadoop自带的计算框架,虽然现在大多数项目已经不采用该框架进行计算(Spark等基于内存的计算框架效率更高),但是他的原理还是值得进行研究的。map-reduce框架核心就是shuffle的过程,下面记录一下关于shuffle的理解。原创 2018-04-03 16:43:20 · 328 阅读 · 0 评论 -
CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN
0x0 背景由于CDH默认的权限管理机制过于简单,不能够保证HADOOP集群的安全性,因此,引入了Kerberos作为安全管理服务。0x1 安装kerberos服务CDH提供了关于整合kerberos服务的向导,在整合kerberos之前,必须要有kerberos服务。下面,介绍一下如何安装kerberos服务。 1. 安装kerberos server和kdc(Key Dist...原创 2018-04-12 21:58:50 · 4146 阅读 · 0 评论 -
Spark加载hadoop配置原理
0x0 背景最近为了将hadoop&hive的五大配置文件,即:core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlhive-site.xml从项目中(classpath)移到项目外(任意位置),研究了spark启动过程的源码,在此记录一下。0x1 Hadoop及Hive获取默认配置过程Hadoop有一个类 Co原创 2018-05-09 10:48:46 · 5878 阅读 · 2 评论 -
Windows下Spark调用Hive报错:java.io.IOException: 拒绝访问。
错误信息如下:18/04/27 10:36:33 INFO SessionState: Created local directory: C:/Users/GUOXIA~1.HDS/AppData/Local/Temp/c5c4c419-58fb-4b84-b84e-c6c972255f12_resources18/04/27 10:36:33 INFO SessionState: Crea...原创 2018-04-27 10:45:39 · 3356 阅读 · 0 评论 -
CarbonData跨库查询异常BUG分析与解决
0x0 背景同事最近发现CarbonData跨库多表联查时会报异常、原创 2018-02-25 14:33:13 · 671 阅读 · 1 评论 -
使用JAVA代码实现编程式提交Spark任务
0x0 背景介绍项目中使用SparkSession来执行任务,出现一个问题:SparkSession开启后会一直占用集群的资源(CPU和内存),而且,SparkSession关闭后,无法再次开启(报异常)。为了解决以上问题,只有采用Java代码模拟Spark Submit来提交任务到集群,从而实现动态调用spark。0x1 方法查看多方资料,发现三个方法,分别是: 1. ...原创 2018-02-24 14:42:23 · 10440 阅读 · 3 评论 -
Carbondata转csv文件异常处理
将carbondata数据保存为csv文件,可以通过以下方式操作/** * 将查询结果Dataset保存为csv文件 * @param sql 查询语句 * @param path csv存放路径(相对HDFS的路径,例如:/opt/csvFile) * @param delimiter csv文件分隔符,默认为逗号 delimiter = ","; ...原创 2018-01-25 14:20:32 · 503 阅读 · 0 评论 -
Carbondata并发修改表问题
最近在使用carbondata,业务逻辑中需要实现同时、多个线程共同写入一个表中,即并发写入。 看了官方文档,关于并发操作表的描述特别少: carbon.lock.typeThis configuration specifies the type of lock to be acquired during concurrent operations on table. There are fol原创 2018-01-27 18:00:00 · 1049 阅读 · 4 评论 -
carbondata+spark环境搭建及测试
0x0 介绍Carbondata:Apache CarbonData is an indexed columnar data format for fast analytics on big data platform, e.g. Apache Hadoop, Apache Spark, etc.carbondata是一种带索引的列型数据格式,用于大数据快速分析平台例如:hadoop、spark等。原创 2018-01-27 18:09:20 · 3180 阅读 · 3 评论 -
Carbondata时间戳Timestamp格式差13个小时
0x0 异常将CSV文件load进table后,发现TIMESTAMP类型的列时间都对不上,正好相差13个小时0x1 分析原因UBUNTU服务器的时区有问题(美国东部时区),JDK8在获取系统时间时相应出错,从而导致CarbonData转换Timestamp出错!0x2 解决方法修改时区: 修改 /etc/timezone文件(sudo vi /etc/timezone) 内容为:Asia/S原创 2018-02-10 09:13:34 · 2243 阅读 · 0 评论 -
carbondata 1.2.0无法对分区的表进行UPDATA操作
版本问题,当前版本1.2及以下的版本对于HASH分区和RANGE分区的carbondata数据无法update (经测试,对于一条一条插入的数据可以update,但是对于load进表的数据无法update)1.3会加入这个特性================================== **经测试 1.3仍未加入该特性!这群骗子**...原创 2018-02-05 09:51:35 · 585 阅读 · 0 评论 -
使用spark-shell操作Carbondata
0x0 准备下载spark,解压 下载carbondata并编译 将编译好的carbondata jar包放入spark的jars文件夹中如果要对HDFS的文件进行增删改,最好加入环境变量:HADOOP_USER_NAME=hdfs可以启动spark-shell了0x1 以local模式启动spark-shell1. 启动脚本./bin/spark-shell2. scala语句import o原创 2018-02-06 21:51:51 · 896 阅读 · 0 评论 -
SparkSQL创建数据库报错
错误信息org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: MetaException(message:Unable to create database path file:/D:/Java_Tools/spark/bin/spark-warehouse/tes...原创 2018-02-07 14:36:02 · 4758 阅读 · 0 评论 -
Spark动态资源分配
0x0 介绍再java中使用SparkSession来执行spark任务在代码编写上很方便,但是有个问题:SparkSession关闭后无法再次开启,这导致我们会一致占用申请到的Spark集群资源(包括内存和CPU),为了优化这一问题,笔者采用两种方式: 一、 采用SparkSubmit来提交任务,从而达到每次执行完JOB就释放资源,但是有个弊端:无法自由监控JOB执行过程; 关于编程式提...原创 2018-02-28 16:17:20 · 1225 阅读 · 0 评论 -
java调试Kerberos,输出登陆信息
在代码中添加: System.setProperty(“sun.security.krb5.debug”, “true”);原创 2018-05-08 16:39:52 · 5028 阅读 · 2 评论