2017年02月_javartisan

11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 zeppelin on Spark 两种方式

Interpreter设置两种方式：standalone模式：masterspark://node:7077 yarn模式：masteryarn

2017-02-28 19:52:05 1562

原创 Zeppelin安装成功后，安装Hive之后启动Zeppelin异常

Zeppelin安装参见：http://blog.csdn.net/dax1n/article/details/57079534异常信如下： WARN [2017-03-01 19:27:25,416] ({pool-2-thread-2} Hive.java[]:168) - Failed to access metastore. This class should not ac

2017-02-28 19:44:10 3057

原创 Hive On Spark 安装成功之后的总结

博文写的有些乱，进行一下总结吧！首先，之前凭借自己的错觉以为使用官网提供好的安装包之后就可以，后来各种实验各种问题。最后下决心进行自己编译源码进行安装。经过两天的摸索最终还是成功了！！功夫还是不负有心人的，以后要多多有耐心，细心做事。接下来言归正传，正如hive官网说的hive on spark，hive的版本要without hadoop，所以需要自行编译spark。此处没有想象

2017-02-28 19:16:28 1735

原创搭建Hive on Spark 遇见的问题File /home/daxin/bigdata/hive/scripts/metastore/upgrade/MySQL/upgrade.order.MyS

在运行./schematool -dbType MySQL -initSchema 报错如下：File /home/daxin/bigdata/hive/scripts/metastore/upgrade/MySQL/upgrade.order.MySQLnot found 很蒙圈。去看文件也在，就是大小有区别，后来./schematool -dbType mysql -initSch

2017-02-28 18:32:11 2444 3

转载 Minor GC、Major GC和Full GC之间的区别（收集于网络）

Minor GC从年轻代空间（包括 Eden 和 Survivor 区域）回收内存被称为 Minor GC。这一定义既清晰又易于理解。但是，当发生Minor GC事件的时候，有一些有趣的地方需要注意到：当 JVM 无法为一个新的对象分配空间时会触发 Minor GC，比如当 Eden 区满了。所以分配率越高，越频繁执行 Minor GC。内存池被填满的时候，其中的内容全部会被复制，

2017-02-28 15:51:30 644

原创 maven打包跳过测试

mvn install -DskipTests或者mvn install -Dmaven.test.skip=true或者配置插件属性：project> [...] build> plugins> plugin> groupId>org.apache.maven.pluginsgroupId> artifa

2017-02-28 15:29:12 677

原创搭建Hive On Spark 编译Hive源码错误解决方法（spark2.1.0，hadoop2.7.2）

Hive On Spark 的搭建需要自行编译Spark 源码 without Hive 然后部署。编译成功之后部署Spark集群，此处不描述如何部署集群了。然后本人自行从Hive官网下载Hive2.1.1安装包进行安装，之后启动运行Hive发现出现Class不兼容异常，经过Google得知版本冲突，导致自行编译Hive源码。本人第一次是在archive.apache.o

2017-02-28 14:24:24 2727

转载 fastutil介绍以及使用fastutil优化Spark作业

fastutil介绍：fastutil是扩展了Java标准集合框架（Map、List、Set；HashMap、ArrayList、HashSet）的类库，提供了特殊类型的map、set、list和queue；fastutil能够提供更小的内存占用，更快的存取速度；我们使用fastutil提供的集合类，来替代自己平时使用的JDK的原生的Map、List、Set，好处在于，

2017-02-28 10:37:21 4238 1

原创启动bin/hive报错Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientat org.apache.hadoop.hive.ql.ses

2017-02-27 21:56:11 13820 1

原创常用Linux Shell命令总结

find ~/bigdata/ -name "*.xml" | xargs grep "192.168.1.102"在 ~/bigdata/ 中，后缀名为xml文件中搜索含有192.168.1.102的字符串

2017-02-27 21:45:07 519

原创安装Hive On Spark 遇见的问题

Exception in thread "main" java.lang.NoClassDefFoundError: scala/collection/Iterableat org.apache.hadoop.hive.ql.optimizer.spark.SetSparkReducerParallelism.process(SetSparkReducerParallelism.java:11

2017-02-27 20:55:52 3994

原创 Spark2.1.0源码编译

1、在Spark官网下载源码，选择source code下载解压即可（也可以git clone spark源码）2、在环境变量里设置maven内存大小，我本机使用默认大小也通过了，根据实际情况决定。export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"3、官方编译示例：# Apache Hadoop 2.2.X

2017-02-27 19:59:10 1379

转载【没有assembly目录】spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

1、问题描述自从spark2.0.0发布之后，每次启动Hive的时候，总会发现一个小问题，启动 hive --service metastore的时候，会报一个小BUG: 无法访问/lib/Spark-assembly-*.jar分析其源码架构，发现主要原因是：在//bin/hive文件中，有这样的命令：加载spark中相关的JAR包。但

2017-02-27 19:16:55 3178

原创 zeppelin的安装以及使用

zeppelin两个版本区别：zeppelin版本有两种分别是：zeppelin-0.7.0-bin-netinst.tgz和zeppelin-0.7.0-bin-all.tgz。主要区别是：netinst是net -install的简写，就是Interpreters自己通过网络安装，具体安装教程可以查阅官方文档，地址为：http://zeppelin.apache.org/docs/0.

2017-02-25 13:42:15 4829

原创 HIve On Spark 安装， Mysql配置，执行引擎设置

配置文件下载:链接：http://pan.baidu.com/s/1gfxFgMB 密码：3jvj数据库设置参考：http://www.cnblogs.com/easyzikai/archive/2012/06/17/2552357.html

2017-02-23 22:06:47 2055

原创 Spark配置参数

Spark env的配置参数：export JAVA_HOME=/usr/local/jdk1.7.0_45export SPARK_MASTER_IP=nodeexport SPARK_WORKER_INSTANCES=2 #设置每一个节点的worker数目，现在已经过期export SPARK_WORKER_MEMORY=2g #设置每一个worker的内存e

2017-02-23 16:58:03 853

原创 windows10 双屏幕扩展后，窗口拖动方向的问题。

2017-02-22 21:28:13 17699 1

原创临时记载，后期整理

问题1：spark-submit 提交任务报错如下：分析：起初我的spark 集群是部署在yarn上，所以在spark-env和spark-default下配置了hadoop相关参数。最后我想使用spark standalone模式跑程序，就把spark-env和spark-default下的hadoop相关参数注释掉了。之后提交程序提示：Exception in thread "

2017-02-21 15:55:15 436

转载 Spark 性能相关参数配置详解－shuffle篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的说明. 但是文档的更新总是落后于代码的开发的, 还有一些配置参数没有来得及被添加到这个文档中, 最重要的是在这个文档中,对于许多的参数也

2017-02-18 15:46:26 476

原创 Spark相关参数详细说明网址

http://spark-config.readthedocs.io/en/latest/index.html#

2017-02-18 15:43:14 418

原创各大互联网公司技术博客汇总

1. 美团技术团队博客：地址： http://tech.meituan.com/2. 腾讯社交用户体验设计(ISUX)地址：http://isux.tencent.com/3. 京东设计中心地址：http://jdc.jd.com4. QQ游戏设计中心地址：http://gdc.qq.com5. 百度

2017-02-18 10:36:21 3110 2

天津大学周伟状态压缩论文

信息学发展势头迅猛，信息学奥赛的题目来源遍及各行各业，经常有一些在实际应用中很有价值的问题被引入信息学并得到有效解决。然而有一些问题却被认为很可能不存在有效的(多项式级的)算法，本文以对几个例题的剖析，简述状态压缩思想及其应用。

2018-09-14

java网络编程第四版源码

2017-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人