自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 优化代码逻辑之 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo2

这篇代码是KNN的优化,代码就是flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于 有个大数据的思想:分而治之求出一份数据最大的前一百个数 如果数据太多,内存太小,则将数据切割成多份每份求出前一百 然后这多份的前一百再求出真正的前一百TODO 优化的地方使用 广播变量进行广播2、没有跟上一个代码一样嵌套两层循环 比如y在外面 ...

2019-12-30 22:01:00 735

原创 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo

1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离可以通过如...

2019-12-30 17:15:51 1784

原创 Spark读取json文件优化

转载自过往记忆(https://www.iteblog.com/)在我们的 AB 测试实验中,用于跟踪数据的文件按年、月和日划分到不同文件夹中,文中中每一行都是一个 JSON 字符串,每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表,那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件,程序得到了每...

2019-12-28 12:02:49 1399

原创 SparkStreaming与Kafka010之06 SparkStreaming读取kafka数据再写出到kafka Consumer/ Producer

kafka -> sparkStreaming -> kafkapackage Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProd...

2019-12-26 19:18:51 468

原创 SparkStreaming与Kafka010之05 监控Spark程序 获取Metrics信息 addStreamingListener或读取http信息解析json串

要获取Metrics信息,监控1.加监听:新的办法,直接一句话搞定ssc. addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener2.老办法:解析Metrics的json串信息 好像是http请求之类的返回json串而且一般请求的4040...

2019-12-26 17:32:14 2485

原创 SparkStreaming与Kafka010之05之04 广播变量的变化重置 与redis监控的结合

1.这个记录的实例就是说,接了上一篇的代码修改,加了广播变量的东西。我在mysql存的某个规则,我启动sparkStreaming程序的时候使用broadcast广播出去,注意这个就仅执行一次的然后吧在redis有这么一个kv作为标志,比如说flag=true,每次sparkStreaming程序程序处理数据用到规则之前,都要先到redis看一下这个标志位变没变。如果有其他程序或者人为修改...

2019-12-26 16:09:19 381

原创 SparkStreaming与Kafka010之03 Consumer的offset 从外部存储Redis读取并保存offsets,

1.这个文章记录我从redis管理kafka的Consumer的offsets,是sparkStreaming作为Consumer的版本的话kafka010,sparkStreaming 2.2.0,redis应该2.9.0 pom文件放在最后2.主要的代码就两个一个是Kafka010Demo03,另一个就是RedisUtilsDemo。然后其他就是连接redis读取配置文件的代码了。...

2019-12-26 15:22:33 507

原创 Kafka0-10版本之00 Producer生产者的简单使用,往kafka循环打入数据

package Kafka010.Utilsimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}/** * Created by Shi shuai RollerQing on 2019/12/24 20:1...

2019-12-26 14:51:17 344

原创 SparkStreaming与Kafka010之05之02 Consumer的offset 自定义设置offset

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.SparkConfimport org....

2019-12-24 21:04:19 260

原创 SparkStreaming与Kafka010之05之01 Consumer

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamim...

2019-12-24 20:17:05 366

原创 SparkStreamingOffsetMysql将偏移量保存到MySQL中

<dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spa...

2019-12-21 10:46:08 580

原创 Flink之自定义JDBC Sink 写入mysql数据

先建表数据sensor_1, 1547718199, 35.80018327300259sensor_6, 1547718201, 15.402984393403084sensor_7, 1547718202, 6.720945201171228sensor_10, 1547718205, 38.101067604893444sensor_1, 1547718206, 35.1se...

2019-12-19 17:46:11 4455 3

原创 Flink之自定义Source

主函数有4中读取数据方式1.从集合中读取数据env.fromCollection(List(…))2.从文件中读取数据env.readTextFile(path)3.从kafka中读取数据 env.addSource(new FlinkKafkaConsumer[String](“sensor”, new SimpleStringSchema(), properties))4. 第四种就...

2019-12-19 09:39:50 1041 3

原创 Flink的WordCount实现(Java和Scala)

Java实现WordCountpackage com.flink.Java;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.utils.ParameterToo...

2019-12-16 19:54:10 1241

原创 Flink的Sink_API_Demo (kafka sink 、redis sink 、es sink)

Flink没有类似于spark中foreach方法,让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 myDstream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外,需要用户自定义实现sink。pom文件说明下面是几个Sink的Demo。当然要提前建立Maven工程,并导...

2019-12-05 11:59:02 1007

原创 Scala 中把 样例类转换成为JSON字符串

Scala 中把 样例类转换成为JSON字符串fastjson无法转换 case class 为json<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3....

2019-12-05 10:59:54 1584

学生信息管理系统C++.zip

学生信息管理系统,使用C++,亲测可用,这个参考别人的代码,但是修改了好多,本来还不能用,修改后可以使用。适合C++小白。 使用前须在D盘下新建一个student.txt 或者你自己改路径。我使用CodeBlocks运行的。

2019-06-25

JavaWeb水果商铺

JavaWeb水果商铺 实现了登录注册 添加购物车清除购物车 点击支付 文件整体编码格式Gbk 不排除个别文件utf-8 有数据库代码 用navicat先建一个fruit的utf-8数据库 然后运行该sql文件

2019-03-31

Java打地鼠小游戏

Java写的打地鼠小游戏 基本每句都有注解 第二个页面重写了一遍 lv顺了一下思路

2019-03-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除