spark
gonefuture
这个作者很懒,什么都没留下…
展开
-
Spark Struct Streaming 写入Hbase 出错 Task not serializable: java.io.NotSerializableException
在使用spark2.2d的Struct Streaming写入Hbase数据库时报错 Task not serializable: java.io.NotSerializableException:org.apache.hadoop.hbase.client.HTable 报错说是什么序列化的错误,搞得我去修改spark的配置文件. 然而真正的原因是我把创建Hbase连接的代码写在fore原创 2018-03-25 18:11:16 · 1138 阅读 · 0 评论 -
使用spark ML创建机器学习流水线,ml包和mllib包的区别
使用spark ML创建机器学习流水线,ml包和mllib包的区别spark中ml包和mllib包的区别mllib,主要针对RDDml,主要针对dataSet - 建议使用ml,它比mllib新,而且dataSet可用spark SQL操作,比较灵活.下面是一个机器学习的Demo,使用DataFrame作为数据集package edu.zhku.mllib.baseimport org.a原创 2018-04-30 23:31:45 · 888 阅读 · 0 评论 -
使用Spark streaming 获取 kafka的json数据分析并用Hbase保存结果
使用Spark streaming 连接 kafka分析并用Hbase保存结果kafka发送的数据是json格式{"userId":20400,"day":"2017-03-01","begintime":1488326400000,"endtime":1488327000000,"data":[{"package":"com.browser1原创 2018-04-23 22:17:36 · 8635 阅读 · 8 评论