自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (7)
  • 收藏
  • 关注

原创 让cloudera manager装的spark支持hql

如何编译spark源码 的assembly来支持hive前面的文章已经介绍过,如果你是用cm装的搭建的集群:第一步:在cm 中的spark service里指定gateway为你要使用spark命令行的节点。第二步:将assembly jar上传到hdfs第三步:在spark的服务范围中修改以下配置为你在hdfs上的assembly jar第四步:spark

2015-03-27 19:32:38 7078

转载 利用PuTTY的SSH Tunnels实现安全的代理

利用PuTTY的SSH Tunnels实现安全的代理1 Comment五月 28, 2011by 大漠标签:Putty使用 , SSH代理安全外壳协议(Secure Shell Protocol / SSH)是一种在不安全网络上提供安全远程登录及其它安全网络服务的协议。最初是UNIX系统上的一个程序,后来又迅速扩展到其他操作平台。常用的SSH工具有开

2015-03-27 14:38:42 27151

原创 shell执行scala脚本

新建一个helloworld.sh如下:#!/bin/shexec scala "$0" "$@"!#case class Person(name:String)object HelloWorld { def main(args:Array[String]){ require(args.length==1) val al = Per

2015-03-26 17:37:11 9260

转载 Tuning the Cluster for MapReduce v2 (YARN)

Tuning the Cluster for MapReduce v2 (YARN)This topic applies to YARN clusters only, and describes how to tune and optimize YARN for your cluster. It introduces the following terms:ResourceMana

2015-03-23 09:48:55 1780

原创 如何在spark-shell命令行执行spark hql

前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)  你会发现没法执行通过,因为c

2015-03-17 19:02:06 18634

转载 MLlib中的Random Forests和Boosting

在Spark 1.2中,MLlib引入了Random Forests和Gradient-Boosted Trees(GBTs)。在分类和回归处理上,这两个算法久经验证,同时也是部署最广泛的两个方法。Random Forests和GBTs属于ensemble learning algorithms(集成学习算法),通过组合多个决策树来建立更为强大的模型。在本篇文章,我们将介绍这两个模型和他们在M

2015-03-17 10:13:08 1450

原创 spark实现hive的合并输入很多小文件为指定大小的大文件的优化功能

源码地址:https://github.com/RetailRocket/SparkMultiTool找到的先记下来,有空研究一下。

2015-03-16 18:54:51 9739

转载 spark storage相关配置

Storage相关配置参数spark.local.dir这个看起来很简单,就是Spark用于写中间数据,如RDD Cache,Shuffle,Spill等数据的位置,那么有什么可以注意的呢。首先,最基本的当然是我们可以配置多个路径(用逗号分隔)到多个磁盘上增加整体IO带宽,这个大家都知道。其次,目前的实现中,Spark是通过对文件名采用hash算法分布到多个路径下的目录中去

2015-03-16 17:35:56 986

原创 用spark实现count(distinct fieldname)形式的聚合

举个例子,比如要统计用户的总访问次数和去除访问同一个URL之后的总访问次数,随便造了几条样例数据(四个字段:id,name,vtm,url,vtm字段本例没用,不用管)如下:id1,user1,2,http://www.hupu.comid1,user1,2,http://www.hupu.comid1,user1,3,http://www.hupu.comid1,user1,100

2015-03-12 16:47:34 9930 3

原创 用spark实现hive中的collect_set函数的功能

import org.apache.spark.SparkContext._import org.apache.spark._/** * Created by xiaojun on 2015/3/9. */object SparkDemo2 { def main(args: Array[String]) { case class User(id: String, name

2015-03-12 14:42:38 4502

原创 spark中的SparkContext实例的textFile使用的小技巧

网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是:1. 一个文件路径,这时候只装载指定的文件2. 一个目录路径,这时候只装载指定目录下面的所有文件(不包括子目录下面的文件)3. 通过通配符的形式加载多个文

2015-03-12 10:23:43 38674 4

原创 编译支持hive的spark assembly

原生的spark assembly jar是不依赖hive的,如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法:假设已经装好了maven,1添加环境变量,如果jvm的这些配置太小的话,可能导致在编译过程中出现OOM,因此放大一些:export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -X

2015-03-10 17:49:54 6713 4

我的windows系统的nc工具

windows系统的nc工具,类似于linux上的nc。 nc.exe -l -p 9999,监听9999端口

2018-04-02

kafka-manager

kafka-manager最新编译可运行包

2015-05-19

jsonserde.jar

hive json 序列化与反序列化工具类q

2014-11-16

wordcount.jar

mapreduce

2014-10-22

delphi写的DLL子窗体生成为主程序的TabSheet

delphi写的DLL子窗体生成为主程序的TabSheet,主程序调用DLL来生成窗体,并把窗体变成主程序上的一个TabSheet,这样更利于模块化分工开发,目前我们ERP项目就是采用这种客户端架构,本例只是粗略的描述下这个功能。提供给读者广泛的想象空间,可以自己去发挥

2008-09-26

Dephi写的用IdUDP实现的P2P聊天软件

自己用IdUdp写的一个聊天工具,比较粗糙,基本的一些聊天的功能都有了,可能代码还有点乱,delphi 7 在WIN XP系统中测试通过,如果在同一电脑上运行两个客户端,请把Listen的2008端口改一改,否则会报错,说2008端口已占用

2008-09-26

cd_catalog.xml

把这个文件导入到HTML页面

2007-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除