- 博客(16)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 优化代码逻辑之 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo2
这篇代码是KNN的优化,代码就是flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于 有个大数据的思想:分而治之求出一份数据最大的前一百个数 如果数据太多,内存太小,则将数据切割成多份每份求出前一百 然后这多份的前一百再求出真正的前一百TODO 优化的地方使用 广播变量进行广播2、没有跟上一个代码一样嵌套两层循环 比如y在外面 ...
2019-12-30 22:01:00 735
原创 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo
1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离可以通过如...
2019-12-30 17:15:51 1784
原创 Spark读取json文件优化
转载自过往记忆(https://www.iteblog.com/)在我们的 AB 测试实验中,用于跟踪数据的文件按年、月和日划分到不同文件夹中,文中中每一行都是一个 JSON 字符串,每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表,那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件,程序得到了每...
2019-12-28 12:02:49 1399
原创 SparkStreaming与Kafka010之06 SparkStreaming读取kafka数据再写出到kafka Consumer/ Producer
kafka -> sparkStreaming -> kafkapackage Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProd...
2019-12-26 19:18:51 468
原创 SparkStreaming与Kafka010之05 监控Spark程序 获取Metrics信息 addStreamingListener或读取http信息解析json串
要获取Metrics信息,监控1.加监听:新的办法,直接一句话搞定ssc. addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener2.老办法:解析Metrics的json串信息 好像是http请求之类的返回json串而且一般请求的4040...
2019-12-26 17:32:14 2485
原创 SparkStreaming与Kafka010之05之04 广播变量的变化重置 与redis监控的结合
1.这个记录的实例就是说,接了上一篇的代码修改,加了广播变量的东西。我在mysql存的某个规则,我启动sparkStreaming程序的时候使用broadcast广播出去,注意这个就仅执行一次的然后吧在redis有这么一个kv作为标志,比如说flag=true,每次sparkStreaming程序程序处理数据用到规则之前,都要先到redis看一下这个标志位变没变。如果有其他程序或者人为修改...
2019-12-26 16:09:19 381
原创 SparkStreaming与Kafka010之03 Consumer的offset 从外部存储Redis读取并保存offsets,
1.这个文章记录我从redis管理kafka的Consumer的offsets,是sparkStreaming作为Consumer的版本的话kafka010,sparkStreaming 2.2.0,redis应该2.9.0 pom文件放在最后2.主要的代码就两个一个是Kafka010Demo03,另一个就是RedisUtilsDemo。然后其他就是连接redis读取配置文件的代码了。...
2019-12-26 15:22:33 507
原创 Kafka0-10版本之00 Producer生产者的简单使用,往kafka循环打入数据
package Kafka010.Utilsimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}/** * Created by Shi shuai RollerQing on 2019/12/24 20:1...
2019-12-26 14:51:17 344
原创 SparkStreaming与Kafka010之05之02 Consumer的offset 自定义设置offset
package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.SparkConfimport org....
2019-12-24 21:04:19 260
原创 SparkStreaming与Kafka010之05之01 Consumer
package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamim...
2019-12-24 20:17:05 366
原创 SparkStreamingOffsetMysql将偏移量保存到MySQL中
<dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spa...
2019-12-21 10:46:08 580
原创 Flink之自定义JDBC Sink 写入mysql数据
先建表数据sensor_1, 1547718199, 35.80018327300259sensor_6, 1547718201, 15.402984393403084sensor_7, 1547718202, 6.720945201171228sensor_10, 1547718205, 38.101067604893444sensor_1, 1547718206, 35.1se...
2019-12-19 17:46:11 4455 3
原创 Flink之自定义Source
主函数有4中读取数据方式1.从集合中读取数据env.fromCollection(List(…))2.从文件中读取数据env.readTextFile(path)3.从kafka中读取数据 env.addSource(new FlinkKafkaConsumer[String](“sensor”, new SimpleStringSchema(), properties))4. 第四种就...
2019-12-19 09:39:50 1041 3
原创 Flink的WordCount实现(Java和Scala)
Java实现WordCountpackage com.flink.Java;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.utils.ParameterToo...
2019-12-16 19:54:10 1241
原创 Flink的Sink_API_Demo (kafka sink 、redis sink 、es sink)
Flink没有类似于spark中foreach方法,让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 myDstream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外,需要用户自定义实现sink。pom文件说明下面是几个Sink的Demo。当然要提前建立Maven工程,并导...
2019-12-05 11:59:02 1007
原创 Scala 中把 样例类转换成为JSON字符串
Scala 中把 样例类转换成为JSON字符串fastjson无法转换 case class 为json<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3....
2019-12-05 10:59:54 1584
学生信息管理系统C++.zip
2019-06-25
JavaWeb水果商铺
2019-03-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人