自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (5)
  • 收藏
  • 关注

原创 通过文件大小和MD5校验识别重复文件

#!/bin/shif [ $# != "1" ] || [ $1 = "--help" ];thenecho "Sytax:md5-sum.sh directory";exit;fiecho "Begin"#file-listlist=$(find $1);#rm$(rm -fr file_tmp.txt)$(rm -fr file_result.

2016-01-05 18:14:48 3294

转载 Spark on Yarn: Where Have All the Memory Gone?

2015/01/08 by wdong | Uncategorizedinhadoop, Spark, Yarn原文:http://www.wdong.org/wordpress/blog/2015/01/08/spark-on-yarn-where-have-all-my-memory-gone/ Spark on Yarn: Where Have All the Memory Go

2015-12-23 15:04:16 12998

转载 YARN的内存和CPU配置

YARN的内存和CPU配置时间 2015-06-05 00:00:00  JavaChen's Blog原文  http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu-configuration.html主题 YARNHadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CP

2015-12-23 14:58:01 4431

原创 sparkR在spark on yarn下的问题

sparkR在spark on yarn下的问题官网上可以看到说明“Currently, SparkR supports running on YARN with the yarn-client mode. These steps show how to build SparkR with YARN support and run SparkR programs on a YARN clu

2015-12-22 15:45:56 2324 3

转载 sparkR could not find function "textFile"

Yeah, that’s probably because the head() you’re invoking there is defined for SparkR DataFrames[1] (note how you don’t have to use the SparkR::: namepsace in front of it), but SparkR:::textFile()r

2015-12-22 12:00:04 2412

原创 禁用共享jar包上传,加快任务启动

禁用共享jar包上传,加快任务启动发现启动spark-sql的时候比较慢,肿么了?平时为减少一堆信息干扰,console没有设置INFO级别,需要改回去看看怎么回事。vi log4j.propertieslog4j.rootCategory=WARN, console改成log4j.rootCategory=INFO, console发现了,一个280M的共享jar包每

2015-12-21 11:02:29 1025

原创 spark on yarn图形化任务监控利器:History-server帮你理解spark的任务执行过程

在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外);辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。搜了一下帖子,2个步骤:

2015-12-21 10:45:48 11515

原创 Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较

Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。首先准备好2000万表记录,作为外部表建好。然后把出生日期星座划分,结果生成表格存放。三种方式存放3个不同表格。####################

2015-12-20 15:44:25 6042

原创 spark-sql中文字符使用问题

所有涉及数据源显示都涉及原始数据的字符集编码和客户端语言环境的设置。那么在spark-sql环境,只要正确的字符集编码和正确的客户端语言环境设置,显示,使用中文,完全不是困难。#上传的文本文件编码,确认是utf8[root@slave2 test]# cat city_test.txt浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京

2015-12-20 13:52:20 14824

原创 一条ssh命令实现端口转发,实现跨机器直接访问

一条ssh命令实现端口转发,实现跨机器直接访问#(实验环境没有跨网段,实际情况,第三方机器访问不是192.168.100.11那个IP,而是其他网口IP,侦听端口对即可)#本机192.168.100.12监听来自对6180端口发起连接的请求,然后把数据全部转发到192.168.100.11的6180端口去#功能场景:192.168.100.12和192.168.100.11在内网可以连

2015-12-19 16:17:40 10367

原创 crontab shell调用spark-sql,实现周期性动态SQL批量自动执行

对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办?spark-sql CLI几个参数,完全满足我等非专业人员。CLI options: -d,--define          Variable subsit

2015-12-18 13:11:39 6277 1

原创 CDH5.4.7升级到CDH5.5.0

CDH5.4.7升级到CDH5.5.0参考:CDH5.2.0升级到CDH5.3.3http://www.bkjia.com/xtzh/984876.html这个是之前CDH5.4.7 SPARK 1.3.0版本,看到新发布CDH5.5.0已经是SPARK 1.5.0,所以打算升级,升级后发现是不支持spark-sql和sparkR的,通过部署社区的spark1.5.2用sp

2015-12-18 09:45:48 2648

原创 sqoop工具在hive和mysql之间互相导数据

参考:Sqoop中文手册1、列出mysql数据库:sqoop list-databases --connect jdbc:mysql://192.168.100.13:3306 --username hive --password hive[root@master sqoop]# sqoop list-databases --connect jdbc:mysql://192

2015-12-18 09:23:01 1823

原创 oracle之spool导出数据

oracle之spool导出数据参考:http://www.tuicool.com/articles/vEbaieoracle之spool详细使用总结 - zmlctt1、准备SQL存成export.sql文件set echo offset line 1000set pagesize 0set feedback offset heading of

2015-12-18 08:59:36 2562

原创 Linux主机sqlldr工具批量文本数据导入oracle数据库

Linux主机sqlldr工具数据导入oracle数据库(受限空间,只拿几十条数据测试)数据来源:世界银行共享的样本http://www.ibm.com/developerworks/cn/data/library/bd-hivetool/参考:http://blog.chinaunix.net/uid-27126319-id-3502468.html ORACLE-S

2015-12-18 08:45:26 1091

原创 spark-sql测试总结

spark-sql测试总结最近倒腾spark-sql,原来测试都是很小的数据,由于自己的是6个虚拟机资源有限,也不能太大,于是在找了帖子。http://colobu.com/2014/12/11/spark-sql-quick-start/Spark SQL 初探: 使用大数据分析2000万数据############## 不要问我数据怎么下载的,自己搜索,我用完就删了

2015-12-17 18:01:10 3988

原创 DataNode起不来检查记录

今天开机启动HDFS,发现一个DataNode在界面上是停止的,尝试手工再次重启,直接报错,但是界面上输出日志不明显。然后看日志输出目录(有点忘了日志目录了,查查配置)putty去到目录:查看,发现50020端口被占用:2015-12-17 10:25:45,261 FATAL org.apache.hadoop.hdfs.server.datano

2015-12-17 10:42:57 2652

原创 spark on yarn-kill正在跑进程

spark on yarn-kill正在跑进程spark-kill-running-applicationhttp://stackoverflow.com/questions/29565716/spark-kill-running-applicationYarn RM Application管理页面:插图:在yarn节点上:yarn appl

2015-12-16 20:12:48 13582

原创 CDH5.5.0中配置运行Spark SQL的Thrift Server

CDH5.5.0里面阉割了spark-sql和sparkR,目录里面都没有start-thriftserver.sh,哪怕是spark Standalone部署。前面帖子讲到,CDH5.5.0 spark-sql没有的情况下,在一个节点部署外面社区版的spark1.5.2,spark on yarn后,spark-sql shell的方式可以查询了。但是问题来了,jdbc如何使用s

2015-12-16 15:07:11 5009 1

原创 Hive Metastore实践总结

Hive Metastore实践总结装上了CDH5,配置了Hive角色实例,然后建表了。那么元数据库里面有啥东西,大概是什么?3中模式,CDH5我安装用Remote模式:Configuring the Hive Metastore http://www.cloudera.com/content/www/en-us/documentation/archive/cdh/4-

2015-12-16 13:10:41 2806

原创 NFS Gateway实践

装上了hadoop,hdfs提供了很大的空间,然后有个问题,我外部很多linux服务器中很多文件如何上传到hdfs?先sftp到一个hdfs客户端,然后再hadoop fs -put 上去?

2015-12-16 12:58:51 1859

原创 使用 hadoop组件 作为 ETL 或 ELT 工具

觉得,数据量很大的情况下,确实可以使用hadoop的组件来做ETL,hdfs存储全部的原始数据,需要的时候通过Hive,sparkSQL或者Impala查询。前提就是先建议Hive外部表的metastore,然后供sparkSQL和Impala访问。

2015-12-16 12:34:38 3254

原创 hdfs文件3个副本BLK的查找

开始部署hdfs的时候,文件冗余3份。那么1个文件分拆成那些BLK,分别存储在那里呢?hadoop fsck -files -blocks -locations 语句帮你忙。#######################[root@master ~]# hadoop fsck --helpDEPRECATED: Use of this script to ex

2015-12-16 11:54:23 3002

原创 Centos 6.7 安装RStudio server遇到的问题总结

Centos6.7安装RStudio server版,总提示缺少库,由于对linux不够熟悉,折腾了一个下午,终于解决。记录一下。

2015-12-16 11:34:13 7269 2

原创 CDH5.5自行编译支持sparkSQL,sparkR

第一步:编译支持hive的spark assemblyhttp://blog.csdn.net/xiao_jun_0820/article/details/44178169第二步:让cloudera manager装的spark支持hql http://blog.csdn.net/xiao_jun_0820/article/details/44680925发

2015-12-15 13:32:03 4215

原创 spark on yarn的理解

最近在安装调测CDH5.5,发现官方文档明确不支持spark-sql(需要自己去编译)和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目录看里面,没有R文件夹,bin里面也没有spark-ql和sparkR。比较失望。http://www.cloudera.com/content/www/en-us/documentation/enterprise/l

2015-12-15 12:07:39 3352

原创 linux-结构化成行成列-小文件循环合并成大文件--方便上传到hadoop

linux-结构化成行成列-小文件循环合并成大文件--方便上传到hadoop

2015-12-14 21:56:53 1015

原创 CDH5.5上安装Rhadoop,RStudio server版初始化SparkR

CDH的很少看到有资料介绍,看到官方文档明确不支持sparkR。然后在看到Rhadoop的一些博客,舍弃CDH自带的spark stack,使用Apache上最新的spark1.5.2,直接下载放在节点上,采用spark on yarn的方式调用hadoop资源。需要做的只是把hadoop,hive的配置拷贝到spark的conf下。免去安装spark集群的工作。#######

2015-12-14 21:18:37 2337

通过文件大小和MD5校验批量识别重复文件

通过文件大小和MD5校验批量识别重复文件

2016-01-05

crontab shell调用spark-sql,实现周期性动态SQL批量自动执行.rar

对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。 但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办? spark-sql CLI几个参数,完全满足我等非专业人员。

2015-12-18

Hadoop CDH5.5.0 配置(Hdfs/Yarn HA)

之前一直在网上找社区版hadoop的配置,发现CDH安装直接界面搞定,自动生成配置。供检查学习。

2015-12-18

linux-结构化成行成列-小文件循环合并成大文件--方便上传hadoop

linux-结构化成行成列-小文件循环合并成大文件--方便上传hadoop: 文件到达门限后上传,或者文件时间戳超过门限时间,上传HDFS,防止小文件过多上传。

2015-12-14

标题 状态 阅读 评论 评论权限 操作 CDH5.5上安装Rhadoop,RStudio server版初始化SparkR

RStudio 安装完成后,如何初始化sparkR?CDH5不能用sparkR? CDH5只要hdfs和hive,spark直接公网下载最新版本,然后直接spark on yarn. sparkR初始化即可调测。

2015-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除