富兰克林008-CSDN博客

原创通过文件大小和MD5校验识别重复文件

#!/bin/shif [ $# != "1" ] || [ $1 = "--help" ];thenecho "Sytax:md5-sum.sh directory";exit;fiecho "Begin"#file-listlist=$(find $1);#rm$(rm -fr file_tmp.txt)$(rm -fr file_result.

2016-01-05 18:14:48 3294

转载 Spark on Yarn: Where Have All the Memory Gone?

2015/01/08 by wdong | Uncategorizedinhadoop, Spark, Yarn原文：http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-where-have-all-my-memory-gone/ Spark on Yarn: Where Have All the Memory Go

2015-12-23 15:04:16 12998

转载 YARN的内存和CPU配置

YARN的内存和CPU配置时间 2015-06-05 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.html主题 YARNHadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CP

2015-12-23 14:58:01 4431

原创 sparkR在spark on yarn下的问题

sparkR在spark on yarn下的问题官网上可以看到说明“Currently, SparkR supports running on YARN with the yarn-client mode. These steps show how to build SparkR with YARN support and run SparkR programs on a YARN clu

2015-12-22 15:45:56 2324 3

转载 sparkR could not find function "textFile"

Yeah, that’s probably because the head() you’re invoking there is defined for SparkR DataFrames[1] (note how you don’t have to use the SparkR::: namepsace in front of it), but SparkR:::textFile()r

2015-12-22 12:00:04 2412

原创禁用共享jar包上传，加快任务启动

禁用共享jar包上传，加快任务启动发现启动spark-sql的时候比较慢，肿么了？平时为减少一堆信息干扰，console没有设置INFO级别，需要改回去看看怎么回事。vi log4j.propertieslog4j.rootCategory=WARN, console改成log4j.rootCategory=INFO, console发现了，一个280M的共享jar包每

2015-12-21 11:02:29 1025

原创 spark on yarn图形化任务监控利器：History-server帮你理解spark的任务执行过程

在spark on yarn任务进行时，大家都指导用4040端口监控（默认是，设置其他或者多个任务同时会递增等例外）;辣么，任务结束了，还要看图形化界面，那就要开history-server了。CDH安装spark on yarn的时候，就自动安装了history的实例。现在不用CDH自带的spark（版本太久了），自己安装spark新版，所以还得具体配置。搜了一下帖子，2个步骤：

2015-12-21 10:45:48 11515

原创 Impala，Hive，SparkSQL数据清洗后对后续查询的影响比较

Impala，Hive，SparkSQL数据清洗后对手续查询的影响比较SparkSQL和Impala执行的时间会比较快，Hive明显慢很多，但是这里比较不是执行单次查询效率，而是三种方式清洗后数据产生结果小文件对后续使用的影响。首先准备好2000万表记录，作为外部表建好。然后把出生日期星座划分，结果生成表格存放。三种方式存放3个不同表格。####################

2015-12-20 15:44:25 6042

原创 spark-sql中文字符使用问题

所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。那么在spark-sql环境，只要正确的字符集编码和正确的客户端语言环境设置，显示，使用中文，完全不是困难。#上传的文本文件编码，确认是utf8[root@slave2 test]# cat city_test.txt浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京

2015-12-20 13:52:20 14824

原创一条ssh命令实现端口转发，实现跨机器直接访问

一条ssh命令实现端口转发，实现跨机器直接访问#（实验环境没有跨网段，实际情况，第三方机器访问不是192.168.100.11那个IP，而是其他网口IP，侦听端口对即可）#本机192.168.100.12监听来自对6180端口发起连接的请求，然后把数据全部转发到192.168.100.11的6180端口去#功能场景：192.168.100.12和192.168.100.11在内网可以连

2015-12-19 16:17:40 10367

原创 crontab shell调用spark-sql，实现周期性动态SQL批量自动执行

对于熟悉Scala开发的人来说，对于spark-sql的使用，直接jar包中写入代码处理就能轻松实现动态语句的执行。但是对于我，不打算学习Scala和Java语言，但是又想定时执行时间推延的周期、定时任务，该肿么办？spark-sql CLI几个参数，完全满足我等非专业人员。CLI options: -d,--define Variable subsit

2015-12-18 13:11:39 6277 1

原创 CDH5.4.7升级到CDH5.5.0

CDH5.4.7升级到CDH5.5.0参考：CDH5.2.0升级到CDH5.3.3http://www.bkjia.com/xtzh/984876.html这个是之前CDH5.4.7 SPARK 1.3.0版本，看到新发布CDH5.5.0已经是SPARK 1.5.0，所以打算升级，升级后发现是不支持spark-sql和sparkR的，通过部署社区的spark1.5.2用sp

2015-12-18 09:45:48 2648

原创 sqoop工具在hive和mysql之间互相导数据

参考：Sqoop中文手册1、列出mysql数据库：sqoop list-databases --connect jdbc:mysql://192.168.100.13:3306 --username hive --password hive[root@master sqoop]# sqoop list-databases --connect jdbc:mysql://192

2015-12-18 09:23:01 1823

原创 oracle之spool导出数据

oracle之spool导出数据参考：http://www.tuicool.com/articles/vEbaieoracle之spool详细使用总结 - zmlctt1、准备SQL存成export.sql文件set echo offset line 1000set pagesize 0set feedback offset heading of

2015-12-18 08:59:36 2562

原创 Linux主机sqlldr工具批量文本数据导入oracle数据库

Linux主机sqlldr工具数据导入oracle数据库（受限空间，只拿几十条数据测试）数据来源：世界银行共享的样本http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/参考：http://blog.chinaunix.net/uid-27126319-id-3502468.html ORACLE-S

2015-12-18 08:45:26 1091

原创 spark-sql测试总结

spark-sql测试总结最近倒腾spark-sql，原来测试都是很小的数据，由于自己的是6个虚拟机资源有限，也不能太大，于是在找了帖子。http://colobu.com/2014/12/11/spark-sql-quick-start/Spark SQL 初探：使用大数据分析2000万数据############## 不要问我数据怎么下载的，自己搜索，我用完就删了

2015-12-17 18:01:10 3988

原创 DataNode起不来检查记录

今天开机启动HDFS，发现一个DataNode在界面上是停止的，尝试手工再次重启，直接报错，但是界面上输出日志不明显。然后看日志输出目录（有点忘了日志目录了，查查配置）putty去到目录：查看，发现50020端口被占用：2015-12-17 10:25:45,261 FATAL org.apache.hadoop.hdfs.server.datano

2015-12-17 10:42:57 2652

原创 spark on yarn-kill正在跑进程

spark on yarn-kill正在跑进程spark-kill-running-applicationhttp://stackoverflow.com/questions/29565716/spark-kill-running-applicationYarn RM Application管理页面：插图：在yarn节点上：yarn appl

2015-12-16 20:12:48 13582

原创 CDH5.5.0中配置运行Spark SQL的Thrift Server

CDH5.5.0里面阉割了spark-sql和sparkR，目录里面都没有start-thriftserver.sh，哪怕是spark Standalone部署。前面帖子讲到，CDH5.5.0 spark-sql没有的情况下，在一个节点部署外面社区版的spark1.5.2，spark on yarn后，spark-sql shell的方式可以查询了。但是问题来了，jdbc如何使用s

2015-12-16 15:07:11 5009 1

原创 Hive Metastore实践总结

Hive Metastore实践总结装上了CDH5，配置了Hive角色实例，然后建表了。那么元数据库里面有啥东西，大概是什么？3中模式，CDH5我安装用Remote模式：Configuring the Hive Metastore http://www.cloudera.com/content/www/en-us/documentation/archive/cdh/4-

2015-12-16 13:10:41 2806

原创 NFS Gateway实践

装上了hadoop，hdfs提供了很大的空间，然后有个问题，我外部很多linux服务器中很多文件如何上传到hdfs？先sftp到一个hdfs客户端，然后再hadoop fs -put 上去？

2015-12-16 12:58:51 1859

原创使用 hadoop组件作为 ETL 或 ELT 工具

觉得，数据量很大的情况下，确实可以使用hadoop的组件来做ETL，hdfs存储全部的原始数据，需要的时候通过Hive，sparkSQL或者Impala查询。前提就是先建议Hive外部表的metastore，然后供sparkSQL和Impala访问。

2015-12-16 12:34:38 3254

原创 hdfs文件3个副本BLK的查找

开始部署hdfs的时候，文件冗余3份。那么1个文件分拆成那些BLK，分别存储在那里呢？hadoop fsck -files -blocks -locations 语句帮你忙。#######################[root@master ~]# hadoop fsck --helpDEPRECATED: Use of this script to ex

2015-12-16 11:54:23 3002

原创 Centos 6.7 安装RStudio server遇到的问题总结

Centos6.7安装RStudio server版，总提示缺少库，由于对linux不够熟悉，折腾了一个下午，终于解决。记录一下。

2015-12-16 11:34:13 7269 2

原创 CDH5.5自行编译支持sparkSQL，sparkR

第一步：编译支持hive的spark assemblyhttp://blog.csdn.net/xiao_jun_0820/article/details/44178169第二步：让cloudera manager装的spark支持hql http://blog.csdn.net/xiao_jun_0820/article/details/44680925发

2015-12-15 13:32:03 4215

原创 spark on yarn的理解

最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql（需要自己去编译）和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目录看里面，没有R文件夹，bin里面也没有spark-ql和sparkR。比较失望。http://www.cloudera.com/content/www/en-us/documentation/enterprise/l

2015-12-15 12:07:39 3352

原创 linux-结构化成行成列-小文件循环合并成大文件--方便上传到hadoop

linux-结构化成行成列-小文件循环合并成大文件--方便上传到hadoop

2015-12-14 21:56:53 1015

原创 CDH5.5上安装Rhadoop，RStudio server版初始化SparkR

CDH的很少看到有资料介绍，看到官方文档明确不支持sparkR。然后在看到Rhadoop的一些博客，舍弃CDH自带的spark stack，使用Apache上最新的spark1.5.2，直接下载放在节点上，采用spark on yarn的方式调用hadoop资源。需要做的只是把hadoop，hive的配置拷贝到spark的conf下。免去安装spark集群的工作。#######

2015-12-14 21:18:37 2337