一步一步

机器学习 机器视觉

排序:
默认
按更新时间
按访问量

Mllib学习

http://spark.apache.org/docs/latest/mllib-data-types.html 这里有很多例子1、vector基础用法:import org.apache.spark.mllib.linalg.Vectors object Test { def...

2018-06-15 16:58:51

阅读数:7

评论数:0

spark进行map,join分worker数少的一些问题

1、fullouterjoin导致的分配worker少:一开始然后加coalesce(1000)还是用的worker很少然后调整join顺序,之前是(小数据)fullouterjoin(大数据),把大小数据顺序调换,worker多了,执行变快最后结果2、flatmap导致的分配worker少:fl...

2018-04-24 10:47:42

阅读数:45

评论数:0

scala中用json

文件结构:{ "DenseFeature": [     { "field":0,     "Features":[     “feature1”      ]}]}是这样的4层结构,不管用...

2018-03-24 18:49:43

阅读数:72

评论数:0

linux技巧总结

1、时间取一天后日期date=`date -d "$date 1 day" +%Y%m%d`取一天前日期date=`date -d'1 days ago' +%Y-%m-%d`

2018-03-14 17:53:08

阅读数:30

评论数:0

spark编程cheat-sheet

1、pysparkspark routain:from pyspark import SparkContext from pyspark import HiveContext if __name__ == '__main__': global_dic = get_dic(target_...

2018-01-02 16:35:46

阅读数:85

评论数:0

关于spark一些参数的问题

1、2、怎么看给自己分配多少资源来着?以前查着又忘了 3、shuffleRead怎么更快?

2017-09-13 13:09:26

阅读数:226

评论数:0

MapPartition一次oom问题解决

1、问题:每次跑到MapParititon就会停住 看起来是repartition的问题,实际出问题的是之前的mapPartition executor表现: 出问题的代码:val process_data = data.mapPartitions( rs =&...

2017-09-13 12:52:20

阅读数:459

评论数:0

groupByKey一直OOM处理

1、一个任务很简单,就是把2T数据读入,按\t拆分,取里面四个字段,之后groupByKey,但是遇到了一直groupByKey就一直fullGC的问题。这里第一个stage很快就跑完了,应该是在拉数据,map之类的。但是只产出19G数据,groupByKey直接处理应该还是绰绰有余的,但现实是我...

2017-09-13 11:35:16

阅读数:212

评论数:0

用GC日志看spark程序是不是在driver,Executor内存效率不高

1、设置conf的方式有三种: set by SparkConf: conf.set(“spark.driver.maxResultSize”, “3g”) set by spark-defaults.conf: spark.driver.maxResultSize 3g set when ...

2017-09-12 15:09:04

阅读数:356

评论数:0

执行scala

scala运行

2017-08-06 21:59:26

阅读数:240

评论数:0

Scala中函数组合器用法

http://blog.csdn.net/springlustre/article/details/52882205 讲的挺全

2017-07-20 02:41:24

阅读数:131

评论数:0

第二篇一次查询

问题:sparksql用GROUPPING SETS同时做不同维度组合的聚合,原先刚刚好危险的在一个小时内跑完,又新加了两个维度,维度组合翻倍(大致30个组合),结果要聚合的数据量也翻倍了。。。每次数据量大于2T,导致倾斜严重,运行慢的问题。(注,图的笔记利用了两个很相同的查询,只是为了说明一下情...

2017-07-10 22:26:22

阅读数:159

评论数:0

hive查过的函数

1、正则匹配函数  regexp   1.正则匹配 数值型  hive  > select  1 regexp '^[0-9]*$'   from dual;   > true   2.正则匹配数值开头结尾  hive > select  '1aa1'   ...

2017-07-03 14:31:24

阅读数:113

评论数:0

一次查询2

一次spark查询

2017-06-07 10:17:58

阅读数:106

评论数:0

hive distinct groupby等实现原理

http://www.cnblogs.com/cxzdy/p/5116222.html

2017-06-06 16:42:30

阅读数:700

评论数:0

sql设计模式

可以参考一系列文章: http://www.cnblogs.com/SavionZhang/p/4015290.html 其他 group set系列

2017-06-01 12:01:13

阅读数:328

评论数:0

失败的sparkSql使用问题记录

问题1、为什么很大的表,最里层的map只用1094个task呢?导致一直gc,   最后失败。 问题2,用row获取数据的时候,在sql中聚合的结果到底是integer还是long呢,总报数据类型转换错误,全改成Integer不对,全改成long也不对(这是在第一个问题换成极小的数据后发现...

2017-05-02 22:11:16

阅读数:1103

评论数:0

易错的api和坑

java 1、正则,replaceAll http://www.cnblogs.com/iyangyuan/p/4809582.html

2017-04-22 17:37:28

阅读数:134

评论数:0

vim 命令 & intellij快捷键

转载自:http://www.codeceo.com/article/useful-vim-command.html 如果我的关于这个话题的最新帖子没有提醒到你的话,那我明确地说,我是一个 Vim 的粉丝。所以在你们中的某些人向我扔石头之前,我先向你们展示一系列“鲜为人知的 Vim 命令”。我...

2017-04-15 23:25:29

阅读数:719

评论数:2

spark查询异常记录

spark查询异常记录总结

2017-04-15 23:23:29

阅读数:865

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭