sxb668-CSDN博客

原创 SPARK图计算缓存踩坑记录整理

简单写写：1、spark的cache只能将数据缓存在内存中，当缓存数据过大时，会只缓存部分数据，没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。2、persist可以选择存储级别，在缓存级别为MEMORY_AND_DISK和DISK_ONLY时，可以缓存下全量数据。3、用fromEdgeTuples构建图的时候可以指定缓存级别，如果不指定则使用MEMORY_ONLY。4、

2017-06-27 15:55:59 1246

原创 Hbase数据批量入库实战流程

如果有大批数据要入库Hbase，普通的方法速度较慢，可以用Hbase手册里BulkLoad的方法，大致流程如下。先说明运行环境，使用的hadoop系统是由1个主机，3个从机组成，本人使用windows远程操作。1、将原数据文件上传主服务器。2、通过命令将该数据文件导入HDFS。命令如下：hadoop dfs -copyFromLocal InputPath hdfsPath

2013-08-21 16:02:53 777

转载 Java split函数备注

由于Split()函数支持正则，所以不能直接用以下符号，解决方法如下。Split()---"." "|" "*" "\" "]" 关于点的问题是用string.split("[.]") 解决。关于竖线的问题用 string.split("\\|")解决。关于星号的问题用 string.split("\\*")解决。关于斜线的问题用 sring.split(

2013-08-21 15:44:41 457

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人