gmHappy

从不敢夜郎自大,但也不至于妄自菲薄,只是想做一个靠本事吃饭的手艺人

Spark MLlib机器学习(一)——决策树

决策树模型,适用于分类、回归。 简单地理解决策树呢,就是通过不断地设置新的条件标准对当前的数据进行划分,最后以实现把原始的杂乱的所有数据分类。就像下面这个图,如果输入是一大堆追求一个妹子的汉子,妹子内心里有个筛子,最后菇凉也就决定了和谁约(举栗而已哦,不代表什么~大家理解原理重要~~)训练数据:0...

2018-05-18 15:19:23

阅读数 1724

评论数 0

Spark 计算人员三度关系

1、一度人脉:双方直接是好友 2、二度人脉:双方有一个以上共同的好友,这时朋友网可以计算出你们有几个共同的好友并且呈现数字给你。你们的关系是: 你->朋友->陌生人 3、三度人脉:即你朋友的朋友的朋友就是这个陌生人。你们的关系是 你-&a...

2018-05-17 13:09:22

阅读数 4270

评论数 4

Spark 计算人员二度关系

数据格式如下:A,B A,C A,E B,D E,D C,F F,G业务逻辑如下:1、转换操作flatMapToPair将行数据变为键值对,如A,B表示A和B认识,A可以通过B认识B的朋友,B通过A可以认识A的朋友,转化结果为{A:A,B}、{B:B,A};2、转换操作groupByKey对键值对...

2018-05-17 11:35:25

阅读数 2486

评论数 0

Spark2.0基于广播变量broadcast实现实时数据按天统计

package com.gm.hive.SparkHive; import java.text.SimpleDateFormat; import java.util.Arrays; import java.util.Collection; import java.util.Date; impo...

2018-05-08 16:04:07

阅读数 2821

评论数 0

Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例

package com.gm.hive.SparkHive; import java.util.Arrays; import java.util.Collection; import java.util.HashMap; import java.util.List; import java.ut...

2018-05-07 14:42:07

阅读数 2223

评论数 0

Spark2.0 Java实现将Hive运算结果保存到数据库

package com.gm.hive.SparkHive; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SaveMode; import or...

2018-05-07 11:35:30

阅读数 3009

评论数 0

Spark2.0集成Hive操作的相关配置与注意事项

前言已完成安装Apache Hive,具体安装步骤请参照,Linux基于Hadoop2.8.0集群安装配置Hive2.1.1及基础操作补充说明Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式...

2018-05-05 13:14:48

阅读数 2406

评论数 0

总结可用的大数据分析软件对应版本

apache-flume-1.8.0-bin、kafka_2.11-0.10.0.0、spark-2.0.0-bin-hadoop2.7hadoop-2.8.0、hbase-1.2.6、apache-hive-2.1.1-bin、zookeeper-3.4.10、sqoop-1.4.7.bin__...

2018-05-04 11:19:40

阅读数 2097

评论数 0

Spark集成Kafka实时流计算Java案例

package com.test; import java.util.*; import org.apache.spark.SparkConf; import org.apache.spark.TaskContext; import org.apache.spark.api.java.*; im...

2018-05-03 16:39:15

阅读数 2823

评论数 0

提示
确定要删除当前文章?
取消 删除