- 博客(3)
- 收藏
- 关注
原创 SPARK图计算缓存踩坑记录整理
简单写写:1、spark的cache只能将数据缓存在内存中,当缓存数据过大时,会只缓存部分数据,没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。2、persist可以选择存储级别,在缓存级别为MEMORY_AND_DISK和DISK_ONLY时,可以缓存下全量数据。3、用fromEdgeTuples构建图的时候可以指定缓存级别,如果不指定则使用MEMORY_ONLY。4、
2017-06-27 15:55:59 1246
原创 Hbase数据批量入库实战流程
如果有大批数据要入库Hbase,普通的方法速度较慢,可以用Hbase手册里BulkLoad的方法,大致流程如下。先说明运行环境,使用的hadoop系统是由1个主机,3个从机组成,本人使用windows远程操作。1、将原数据文件上传主服务器。2、通过命令将该数据文件导入HDFS。命令如下:hadoop dfs -copyFromLocal InputPath hdfsPath
2013-08-21 16:02:53 777
转载 Java split函数备注
由于Split()函数支持正则,所以不能直接用以下符号,解决方法如下。Split()---"." "|" "*" "\" "]" 关于点的问题是用string.split("[.]") 解决。关于竖线的问题用 string.split("\\|")解决。关于星号的问题用 string.split("\\*")解决。关于斜线的问题用 sring.split(
2013-08-21 15:44:41 457
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人