spark
黄瓜炖啤酒鸭
黄瓜炖啤酒鸭 欢迎分享,欢迎交流,有不懂的可以加微信交流,拒绝红包等利益交流,不懂就问。
展开
-
海豚调度器初次使用 .......
一,部署部分省略,官网有详细的教程,顺着步骤做就好了。二,先说说调用spark运行wordcount案例流程1,编写代码2,上传jar包3,执行任务4,查询任务运行过程5,总结问题。6,未完待续...原创 2021-09-08 11:09:46 · 3704 阅读 · 1 评论 -
掌握Spark机器学习库 01 --- 数据类型
一,Mllib的数据格式1,本地向量本地向量是存储在本地节点上的,其基本数据类型是Vector,其有两个子集,分别是密集的与稀疏的,我们一般使用Vectors工厂类来实现。如: Vectors.dese(1.0,2.0,3.0) Vectors.sparse(3,(0,1),(1,2),(2,3))2,标签数据valpos=LabeledPoint(1....原创 2019-07-31 22:29:17 · 204 阅读 · 0 评论 -
Scala 项目集合浅思
1,因为开发spark目是scala写的,所以这几天一直在看scala相关的,因为不是职业用scala的,本人基础也不是很好,主要看了<<scala编程实战>> 这本书,可能会感觉比 <<快读scala>> 更符合我的口味。2,因为项目是几个人写的,我发现了项目中一些不规范的地方,其中就是关于集合使用的地方,我就昨天在群里讨论的话语做一个记录吧,...原创 2018-10-12 12:26:32 · 178 阅读 · 0 评论 -
掌握Spark机器学习库 02 --- Mllib 与 ml
一,Mllib 与 ml是spark的两个机器学习库二者区别:1,Mllib 是采用RDDml使用DataFrame2,spark官方是希望使用ml替代掉Mllib二,Mllib使用场景1,海量数据的分析跟挖掘 --比如房价预测2,推荐系统,模型训练3,sparkStreaming+Mllib三,矩阵与向量1,矩阵的基本运算...原创 2019-07-31 23:08:53 · 376 阅读 · 0 评论 -
spark机器学习进阶实战 笔记02
1原创 2019-07-31 17:18:01 · 334 阅读 · 0 评论 -
Spark ML机器学习实战笔记
11原创 2019-07-25 23:42:58 · 507 阅读 · 0 评论 -
spark 读取hive数据 写入hbase
1,saveAsNewAPIHadoopDataset批量写入(千万级别以下使用)import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableOutputForma...原创 2019-08-27 10:08:24 · 3361 阅读 · 1 评论 -
spark都可快忘记完了,正好有点简单的业务做做,写了个简单的代码
spark读取hive,然后做了简单的处理,存入hive:package com.dianyou.offline.actionimport com.alibaba.fastjson.{JSONArray, JSONObject}import com.dianyou.util.PropertiesUtilimport org.apache.log4j.{Level, Logger}i...原创 2019-12-30 10:43:32 · 187 阅读 · 0 评论 -
实时大数据之使用 geoip2解析IP地址
首先在实时程序中 调用接口不现实,肯定是调用离线库去解决地址的,这种准确性很重要,现在推荐下面这个离线库:注意点:1)下载包 放到对应的目录,特别是在生产环境,一般放在lib目录下 动态写活https://dev.maxmind.com/geoip/geoip2/geolite2/#Downloads下载解压2)写代码:代码: 执行main方法pack...原创 2019-11-28 11:13:38 · 2185 阅读 · 0 评论 -
spark2.1检测出jackson漏洞,升级版本
Jackson 最新反序列化漏洞 需要升级为jackson-databind-2.9.9.3fastjson 升级为1.2.62最新版本1,备份cd /zywa/spark/spark-2.1.1-bin-hadoop2.7/jarsmv jackson-annotations-2.6.5.jar jackson-annotations-2.6.5.jar.bakmv jacks...原创 2019-11-06 17:25:11 · 1006 阅读 · 0 评论 -
spark 机器学习实战01
1,有时间就看写写一点把,毕竟知识这个玩意 自己真正懂了才叫自己的。原创 2019-06-22 14:36:03 · 188 阅读 · 0 评论 -
spark 读取 kafka 指定偏移量数据
1,读取zookeeper里面的最大偏移量2,手动输入指定的偏移量,实际生产是从redis读取,这里只是个案例import java.utilimport com.alibaba.fastjson.{JSON, JSONObject}import com.dianyou.util._import org.apache.kafka.clients.consumer.Consumer...原创 2019-06-06 12:22:04 · 1799 阅读 · 2 评论 -
笔记
1,在Spark上通过BulkLoad快速将海量数据导入Hbase代码参考:https://blog.csdn.net/mlljava1111/article/details/68928349参考:https://segmentfault.com/p/1210000009762043原创 2018-06-22 15:24:40 · 135 阅读 · 0 评论