2019年12月_C_time

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创优化代码逻辑之 K-近邻算法之鸢尾花实例使用Spark实现KNN的Demo2

这篇代码是KNN的优化，代码就是flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于有个大数据的思想：分而治之求出一份数据最大的前一百个数如果数据太多，内存太小，则将数据切割成多份每份求出前一百然后这多份的前一百再求出真正的前一百TODO 优化的地方使用广播变量进行广播2、没有跟上一个代码一样嵌套两层循环比如y在外面 ...

2019-12-30 22:01:00 735

原创 K-近邻算法之鸢尾花实例使用Spark实现KNN的Demo

1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离可以通过如...

2019-12-30 17:15:51 1784

原创 Spark读取json文件优化

转载自过往记忆（https://www.iteblog.com/）在我们的 AB 测试实验中，用于跟踪数据的文件按年、月和日划分到不同文件夹中，文中中每一行都是一个 JSON 字符串，每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表，那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件，程序得到了每...

2019-12-28 12:02:49 1399

原创 SparkStreaming与Kafka010之06 SparkStreaming读取kafka数据再写出到kafka Consumer/ Producer

kafka -> sparkStreaming -> kafkapackage Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProd...

2019-12-26 19:18:51 468

原创 SparkStreaming与Kafka010之05 监控Spark程序获取Metrics信息 addStreamingListener或读取http信息解析json串

要获取Metrics信息，监控1.加监听：新的办法，直接一句话搞定ssc. addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener2.老办法：解析Metrics的json串信息好像是http请求之类的返回json串而且一般请求的4040...

2019-12-26 17:32:14 2485

原创 SparkStreaming与Kafka010之05之04 广播变量的变化重置与redis监控的结合

1.这个记录的实例就是说，接了上一篇的代码修改，加了广播变量的东西。我在mysql存的某个规则，我启动sparkStreaming程序的时候使用broadcast广播出去，注意这个就仅执行一次的然后吧在redis有这么一个kv作为标志，比如说flag=true，每次sparkStreaming程序程序处理数据用到规则之前，都要先到redis看一下这个标志位变没变。如果有其他程序或者人为修改...

2019-12-26 16:09:19 381

原创 SparkStreaming与Kafka010之03 Consumer的offset 从外部存储Redis读取并保存offsets，

1.这个文章记录我从redis管理kafka的Consumer的offsets，是sparkStreaming作为Consumer的版本的话kafka010，sparkStreaming 2.2.0，redis应该2.9.0 pom文件放在最后2.主要的代码就两个一个是Kafka010Demo03，另一个就是RedisUtilsDemo。然后其他就是连接redis读取配置文件的代码了。...

2019-12-26 15:22:33 507

原创 Kafka0-10版本之00 Producer生产者的简单使用，往kafka循环打入数据

package Kafka010.Utilsimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}/** * Created by Shi shuai RollerQing on 2019/12/24 20:1...

2019-12-26 14:51:17 344

原创 SparkStreaming与Kafka010之05之02 Consumer的offset 自定义设置offset

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.SparkConfimport org....

2019-12-24 21:04:19 260

原创 SparkStreaming与Kafka010之05之01 Consumer

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamim...

2019-12-24 20:17:05 366

原创 SparkStreamingOffsetMysql将偏移量保存到MySQL中

<dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spa...

2019-12-21 10:46:08 580

原创 Flink之自定义JDBC Sink 写入mysql数据

先建表数据sensor_1, 1547718199, 35.80018327300259sensor_6, 1547718201, 15.402984393403084sensor_7, 1547718202, 6.720945201171228sensor_10, 1547718205, 38.101067604893444sensor_1, 1547718206, 35.1se...

2019-12-19 17:46:11 4455 3

原创 Flink之自定义Source

主函数有4中读取数据方式1.从集合中读取数据env.fromCollection(List(…))2.从文件中读取数据env.readTextFile(path)3.从kafka中读取数据 env.addSource(new FlinkKafkaConsumer[String](“sensor”, new SimpleStringSchema(), properties))4. 第四种就...

2019-12-19 09:39:50 1041 3

原创 Flink的WordCount实现（Java和Scala）

Java实现WordCountpackage com.flink.Java;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.utils.ParameterToo...

2019-12-16 19:54:10 1241

原创 Flink的Sink_API_Demo (kafka sink 、redis sink 、es sink)

Flink没有类似于spark中foreach方法，让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 myDstream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外，需要用户自定义实现sink。pom文件说明下面是几个Sink的Demo。当然要提前建立Maven工程，并导...

2019-12-05 11:59:02 1007

原创 Scala 中把样例类转换成为JSON字符串

Scala 中把样例类转换成为JSON字符串fastjson无法转换 case class 为json<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3....

2019-12-05 10:59:54 1584