自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小刀的专栏

路是一步一步走出来的。

  • 博客(5)
  • 收藏
  • 关注

原创 scala实现Hash函数

在做spark graphx计算时,图的边表初始化,通常需要转化为 srcId,dstId,property 的形式,其中srcId,dstId 需要转化为数字以压缩数据,提高计算效率。即,在分布式spark程序中将字符串转化为正整数的问题。要想实现该功能,有两种方法,首先可以,先收集顶点表,然后逐个设置顶点编号,但是这种方法通常需要线性计算,费时费力。另外一种方法便是运用哈希函数的方式,把对应的

2015-04-29 18:59:47 6082

原创 多线程、分布式任务如何向HDFS加载数据

大数据计算时,多线程与分布式的并行能够很好的加速数据的处理速度。而在大数据存储时,分布式的文件存储系统对并发的写请求支持存在天然的缺陷。这是一对天然的矛盾,暂时无法解决,只能缓和。要想缓和,可通过加层的方法实现。大数据计算与大数据存储对中间层的要求主要有两点:第一,支持并发访问,以此弥补分布式存储层的不足;第二,支持缓存,起到缓冲池作用,并支持按照一定调度策略实现对缓冲的访问。一般的关系型数据

2015-04-27 10:47:48 3720

原创 linux crontab 定时任务配置用户环境变量

在定时任务crontab 配置调用shell脚本,脚本在客户端测试无误。脚本1任务:远程在S3下载复制数据到HDFS,调用Spark集群分析分布式文件系统的数据输出到HDFS,调用hive加载分析完成的数据到特定的表。异常现象:提示缺少hive的执行jar包。脚本2任务:下载服务器日志数据到固定机器,在本地机器多线程清洗数据,完成之后load到HDFS。异常现象

2015-04-27 10:30:13 4963

原创 kernel panic not syncing : attempted to kill the idle task.

64位 windows7 ,用 VMware7 安装了 ubuntu12.04 desktop 出现:kernel panic-not syncing : attempted to kill the idle task.问题解决:更改 VMware7 为 VMware9

2015-04-03 17:32:26 1566

原创 emr+hadoop2.4+spark1.2 class not found com.hadoop.compression.lzo.LzoCodec

aws 云上的 spark on yarn 模式下,hadoop集群的core-site.xml有:io.compression.codec.lzo.classcom.hadoop.compression.lzo.LzoCodecspark on yarn会默认使用集群的编码方式,但是相关的jar包不会自动的添加,需要自己配置,在  $spark_home/conf/s

2015-04-02 16:00:26 2618

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除