spark
relife1
人之所恶在好为人师,不实知,谨慎言
展开
-
Spark学习过程笔记
1:flatMap():这个方法类似与map,相当于使用两次map,例如:flatMap(line=>line.split(" "))其实就相当于使用了两次map(line=>line.split(" ")),在词频统计中,可以直接文本分解成单词,而不是单词的列表.2:mapPartitions():也是类似map的一个方法,不过map是对rdd中的每一个元素进行一个链接,而mapPa...原创 2018-05-27 21:16:08 · 174 阅读 · 0 评论 -
Spark日志级别设置
在运行spark程序的时候,有很多info的消息,一是看着很烦,而是让人找不到我们需要的结果,所以很有必要设置一下log的级别,在初学spark的时候,都是直接在sparkcontext.setloglevel,但是我发现并没有用,即使是在本地运行都没用,所以上网查了别的方法,发现很有用,就是重新创建一个log4j.properties文件,然后将其中的日志级别改为WARN,然后就可以了.具体的实...原创 2018-06-06 20:39:21 · 6755 阅读 · 0 评论 -
spark遭遇空间已满的解决
-----------------------------------------------9.22------------------------------------------------------今天甚是高兴,终于解决了集群内存满的问题,下面记录的是之前的处理内存的方法,一般情况下,这个解决办法是可以的,但是对于我的集群是不行的,我一直很困扰,因为我的日志都清干净了,du...原创 2018-08-10 23:27:04 · 2237 阅读 · 0 评论 -
scala使用fastjson之JSONObject cannot be cast to JSONArray
这件事一定要好好写一篇博客说一下,它整整折磨了我一天最近在用spark写一个数据分析的项目,源文件是json,所以就使用了fastjson这个包,然后就到了噩梦时刻其实本地都弄好了,运行也没什么问题,但是把jar包上传到master上运行,就会报题目中出的错,一开始,我以为是因为我使用了scala和java结合(其实我内心不觉得会是这个原因,但是没办法),我调用fastjson的代码是用j...原创 2018-08-02 18:11:03 · 6389 阅读 · 0 评论 -
spark中遇到Exception in thread "main" java.util.NoSuchElementException: key not found
这个问题如果是一般的java或scala项目,这个问题当然没什么好说的,就是找不到对应的键,但是我遇到的问题是在spark中,而且我确定不会出现键找不到的问题,所以一定是有其他问题.首先,我spark项目中的所有任务都已经完成了以后才报错,这一点很值得思考,然后从spark的机制来看,很可能是我的集群中的某个节点没有访问到我的map,所以会出现这个问题,我的代码中,出问题的map的键类型是...原创 2018-08-11 19:22:08 · 5703 阅读 · 0 评论 -
spark 中 postgresql数据库使用
毕竟是号称世界上最先进的数据库,还是要会一点的一:最近是在spark里面使用,需要从数据库中直接读出数据构建Dataframe,但是这里有一个坑点,我需要拿到每天的数据,但是如果不使用spark.sql()执行sql语句,而是使用其他API,就涉及一个日期条件怎么写的问题,最后解决时是使用spark.read.jdbc(),参数除了url,表名,配置文件,就是一个predicates的条件A...原创 2018-11-26 10:23:22 · 1241 阅读 · 0 评论 -
Spark Dataframe转换/行动操作
疑惑最近抛弃了RDD,开始使用Dataframe,主要还是因为使用数据库的原因.在RDD中我们都知道惰性操作,知道RDD转换操作和行动操作的区别,但是到了Dataframe中呢,Dataframe有自己的一系列方法,虽然是万变不离其宗,Dataframe归根结底是一种特殊的RDD,但是很多地方都没有对Dataframe的转换操作和行动操作做介绍.这也是我一直疑惑的解惑首先,需要肯定的是Dat...原创 2018-11-29 21:09:18 · 1292 阅读 · 0 评论 -
推荐系统-协同过滤和关联规则的不同适用
说起来很丢人,以前只是用过关联规则的算,而没听过关联规则,最近才看到一些有关的内容,但同时也很疑惑二者的区别其实我现在还是没有理解协同过滤具体的算法步骤,只是从各种资料中看到它的适用,自己又总结了一下.解惑(暂时)关联规则我很熟悉,先说这个,关联规则最主要的就是频繁项的挖掘,然后从频繁集中生成关联规则,最后匹配待推荐项.如果拿电商来举例,在我看来,使用关联规则的数据集的特征就是购物车的消...原创 2018-12-17 19:55:44 · 1152 阅读 · 0 评论