2015年04月_刀砍磁感线

11月 09月 08月 07月 06月 05月 04月

原创 scala实现Hash函数

在做spark graphx计算时，图的边表初始化，通常需要转化为 srcId,dstId,property 的形式，其中srcId,dstId 需要转化为数字以压缩数据，提高计算效率。即，在分布式spark程序中将字符串转化为正整数的问题。要想实现该功能，有两种方法，首先可以，先收集顶点表，然后逐个设置顶点编号，但是这种方法通常需要线性计算，费时费力。另外一种方法便是运用哈希函数的方式，把对应的

2015-04-29 18:59:47 6082

原创多线程、分布式任务如何向HDFS加载数据

大数据计算时，多线程与分布式的并行能够很好的加速数据的处理速度。而在大数据存储时，分布式的文件存储系统对并发的写请求支持存在天然的缺陷。这是一对天然的矛盾，暂时无法解决，只能缓和。要想缓和，可通过加层的方法实现。大数据计算与大数据存储对中间层的要求主要有两点：第一，支持并发访问，以此弥补分布式存储层的不足；第二，支持缓存，起到缓冲池作用，并支持按照一定调度策略实现对缓冲的访问。一般的关系型数据

2015-04-27 10:47:48 3720

原创 linux crontab 定时任务配置用户环境变量

在定时任务crontab 配置调用shell脚本，脚本在客户端测试无误。脚本1任务：远程在S3下载复制数据到HDFS，调用Spark集群分析分布式文件系统的数据输出到HDFS，调用hive加载分析完成的数据到特定的表。异常现象：提示缺少hive的执行jar包。脚本2任务：下载服务器日志数据到固定机器，在本地机器多线程清洗数据，完成之后load到HDFS。异常现象

2015-04-27 10:30:13 4963

原创 kernel panic not syncing : attempted to kill the idle task.

64位 windows7 ，用 VMware7 安装了 ubuntu12.04 desktop 出现：kernel panic-not syncing : attempted to kill the idle task.问题解决：更改 VMware7 为 VMware9

2015-04-03 17:32:26 1566

原创 emr+hadoop2.4+spark1.2 class not found com.hadoop.compression.lzo.LzoCodec

aws 云上的 spark on yarn 模式下，hadoop集群的core-site.xml有：io.compression.codec.lzo.classcom.hadoop.compression.lzo.LzoCodecspark on yarn会默认使用集群的编码方式，但是相关的jar包不会自动的添加，需要自己配置，在 $spark_home/conf/s

2015-04-02 16:00:26 2618

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 scala实现Hash函数

原创 多线程、分布式任务如何向HDFS加载数据

原创 linux crontab 定时任务配置用户环境变量

原创 kernel panic not syncing : attempted to kill the idle task.

原创 emr+hadoop2.4+spark1.2 class not found com.hadoop.compression.lzo.LzoCodec

空空如也

空空如也

原创多线程、分布式任务如何向HDFS加载数据