通过文件大小和MD5校验识别重复文件

#!/bin/sh if [ $# != "1" ] || [ $1 = "--help" ];then echo "Sytax:md5-sum.sh directory"; exit; fi echo "Begin&...

2016-01-05 18:14:48

阅读数 1888

评论数 0

Spark on Yarn: Where Have All the Memory Gone?

2015/01/08 by wdong | Uncategorizedinhadoop, Spark, Yarn 原文:http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-where-have-all-my-memory-go...

2015-12-23 15:04:16

阅读数 10263

评论数 0

YARN的内存和CPU配置

YARN的内存和CPU配置 时间 2015-06-05 00:00:00  JavaChen's Blog 原文  http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.html 主题 YARN ...

2015-12-23 14:58:01

阅读数 3535

评论数 0

sparkR在spark on yarn下的问题

sparkR在spark on yarn下的问题 官网上可以看到说明“Currently, SparkR supports running on YARN with the yarn-client mode.  These steps show how to build SparkR with...

2015-12-22 15:45:56

阅读数 1868

评论数 3

sparkR could not find function "textFile"

Yeah, that’s probably because the head() you’re invoking there is defined for SparkR DataFrames [1] (note how you don’t have to use the SparkR::: na...

2015-12-22 12:00:04

阅读数 1760

评论数 0

禁用共享jar包上传,加快任务启动

禁用共享jar包上传,加快任务启动 发现启动spark-sql的时候比较慢,肿么了?平时为减少一堆信息干扰,console没有设置INFO级别,需要改回去看看怎么回事。 vi log4j.properties log4j.rootCategory=WARN, console 改成 log4j.r...

2015-12-21 11:02:29

阅读数 538

评论数 0

spark on yarn图形化任务监控利器:History-server帮你理解spark的任务执行过程

在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外); 辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。 现在不用CDH自带...

2015-12-21 10:45:48

阅读数 7588

评论数 0

Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较

Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较 SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。 首先准备好2000万表记录,作为外部表建好。 然后把出生日期星座...

2015-12-20 15:44:25

阅读数 4853

评论数 0

spark-sql中文字符使用问题

所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。 那么在spark-sql环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。 #上传的文本文件编码,确认是utf8 [root@slave2 test]# cat city_test.txt 浙江...

2015-12-20 13:52:20

阅读数 5887

评论数 0

一条ssh命令实现端口转发,实现跨机器直接访问

一条ssh命令实现端口转发,实现跨机器直接访问 #(实验环境没有跨网段,实际情况,第三方机器访问不是192.168.100.11那个IP,而是其他网口IP,侦听端口对即可) #本机192.168.100.12监听来自对6180端口发起连接的请求,然后把数据全部转发到192.168.100.11的6...

2015-12-19 16:17:40

阅读数 6780

评论数 0

crontab shell调用spark-sql,实现周期性动态SQL批量自动执行

对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。 但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办? spark-sql CLI几个参数,完全满足我等非专业人员。 CLI op...

2015-12-18 13:11:39

阅读数 3925

评论数 1

CDH5.4.7升级到CDH5.5.0

CDH5.4.7升级到CDH5.5.0 参考:CDH5.2.0升级到CDH5.3.3 http://www.bkjia.com/xtzh/984876.html 这个是之前CDH5.4.7 SPARK 1.3.0版本,看到新发布CDH5.5.0已经是SPARK 1.5.0,所以打...

2015-12-18 09:45:48

阅读数 2155

评论数 0

sqoop工具在hive和mysql之间互相导数据

参考: Sqoop中文手册 1、列出mysql数据库: sqoop list-databases --connect jdbc:mysql://192.168.100.13:3306 --username hive --password hive [root@master sqoo...

2015-12-18 09:23:01

阅读数 1610

评论数 0

oracle之spool导出数据

oracle之spool导出数据 参考: http://www.tuicool.com/articles/vEbaie oracle之spool详细使用总结 - zmlctt 1、准备SQL 存成export.sql文件 set echo off set line 100...

2015-12-18 08:59:36

阅读数 826

评论数 0

Linux主机sqlldr工具批量文本数据导入oracle数据库

Linux主机sqlldr工具数据导入oracle数据库(受限空间,只拿几十条数据测试) 数据来源:世界银行共享的样本 http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/ 参考: http://blog.ch...

2015-12-18 08:45:26

阅读数 535

评论数 0

spark-sql测试总结

spark-sql测试总结 最近倒腾spark-sql,原来测试都是很小的数据,由于自己的是6个虚拟机资源有限,也不能太大,于是在找了帖子。 http://colobu.com/2014/12/11/spark-sql-quick-start/ Spark SQL 初探: 使用大数据分析2000...

2015-12-17 18:01:10

阅读数 2892

评论数 0

DataNode起不来检查记录

今天开机启动HDFS,发现一个DataNode在界面上是停止的,尝试手工再次重启,直接报错,但是界面上输出日志不明显。 然后看日志输出目录(有点忘了日志目录了,查查配置) putty去到目录:查看,发现50020端口被占用: 2015-12-17 10:2...

2015-12-17 10:42:57

阅读数 1333

评论数 0

spark on yarn-kill正在跑进程

spark on yarn-kill正在跑进程 spark-kill-running-application http://stackoverflow.com/questions/29565716/spark-kill-running-application Yarn RM ...

2015-12-16 20:12:48

阅读数 5266

评论数 0

CDH5.5.0中配置运行Spark SQL的Thrift Server

CDH5.5.0里面阉割了spark-sql和sparkR,目录里面都没有start-thriftserver.sh,哪怕是spark Standalone部署。 前面帖子讲到,CDH5.5.0 spark-sql没有的情况下,在一个节点部署外面社区版的spark1.5.2,spark ...

2015-12-16 15:07:11

阅读数 3839

评论数 0

Hive Metastore实践总结

Hive Metastore实践总结 装上了CDH5,配置了Hive角色实例,然后建表了。那么元数据库里面有啥东西,大概是什么? 3中模式,CDH5我安装用Remote模式: Configuring the Hive Metastore  http://www.cloudera...

2015-12-16 13:10:41

阅读数 2082

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭