spark 机器学习
文章平均质量分 52
疯狂的程序猿88888
忘性太大,解决的问题赶紧写博客记下来
展开
-
在使用FP-Growth算法时程序报错问题
今天试验了FP-Growth算法,日志做处理,打包到集群运行时报错,报错,但是网上找资料找不到Items in a transaction must be unique but got WrappedArray出现此问题的主要原因是fpg算法要求输入的数据是RDD(Array[String])类型,但是Array类型中是不允许出现重复的内容的,所以才会出现这个错误,只需原创 2016-04-25 15:52:39 · 1805 阅读 · 1 评论 -
Spark读取elasticsearch5.0中程序报错
本人使用spark读取elasticsearch5.0中内容时报错,其中pom.xml中配置如下 org.apache.camel camel-core 2.17.3 org.apache.camel camel-scala 2.17.3 org.s原创 2016-10-31 14:42:57 · 13365 阅读 · 4 评论 -
Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path, preempting StackOverflow
SLF4J: Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar on the class path, preempting StackOverflowError. SLF4J: See also http://www.slf4j.org/codes.html#log4jDelegationLoop for more details.转载 2016-11-01 10:19:19 · 2484 阅读 · 2 评论 -
关于spark读取elasticsearch中数据,但是无法实现过滤数据的问题
最近出现了一个问题,就是spark读取elasticsearch中的数据的时候,明明elasticsearch中有数据,但是spark读取数据,然后进行过滤的时候会把相关的数据都给过滤掉了,找来找去是因为写index的时候出现的问题当我使用这种方式读取es中的数据的时候,会出现的问题是sc.esRDD("logstash-2016.11.24").values这样读取的数据我使用f原创 2016-11-25 09:56:57 · 2073 阅读 · 0 评论 -
Fregata使用简介
最近TalkingData开源了Fregata,Fregata的主要作用是加速基于spark的机器学习的计算速度,据说10亿*10亿级别的数据如果缓存到内存中的话用1s钟就可以算完,如果不缓存的话,十秒钟搞定,如果这么来的话,那真是碉堡了,废话不多说,直接走起我用maven构建的项目, com.talkingdata.fregata core原创 2016-12-08 10:13:20 · 2334 阅读 · 0 评论 -
使用Fregata实现spark的逻辑回归算法
import fregata.spark.data.LibSvmReaderimport fregata.spark.metrics.classification.{AreaUnderRoc, Accuracy}import fregata.spark.model.classification.LogisticRegressionimport org.apache.spark.{SparkC原创 2016-12-08 13:54:57 · 1300 阅读 · 0 评论 -
spark 读取elasticsearch中数据不完整问题
使用spark读取elasticsearch中的数据,使用es提供的api来进行,sc.esRDD("logstash").values官方网站也是这种方式读取数据的,但是我测试的时候有时候会出现读取数据不完整的情况,比如本来读取的数据是这样的Map(msg -> 2016-03-18 15:24:14 System_ID=ruijie sp_malware:Client_IP=172原创 2017-06-28 14:37:58 · 2708 阅读 · 6 评论