spark
C_time
BD
展开
-
优化代码逻辑之 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo2
这篇代码是KNN的优化,代码就是flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于 有个大数据的思想:分而治之求出一份数据最大的前一百个数 如果数据太多,内存太小,则将数据切割成多份每份求出前一百 然后这多份的前一百再求出真正的前一百TODO 优化的地方使用 广播变量进行广播2、没有跟上一个代码一样嵌套两层循环 比如y在外面 ...原创 2019-12-30 22:01:00 · 812 阅读 · 0 评论 -
K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo
1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离可以通过如...原创 2019-12-30 17:15:51 · 2055 阅读 · 0 评论 -
Spark读取json文件优化
转载自过往记忆(https://www.iteblog.com/)在我们的 AB 测试实验中,用于跟踪数据的文件按年、月和日划分到不同文件夹中,文中中每一行都是一个 JSON 字符串,每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表,那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件,程序得到了每...原创 2019-12-28 12:02:49 · 1523 阅读 · 0 评论 -
SparkStreaming与Kafka010之06 SparkStreaming读取kafka数据再写出到kafka Consumer/ Producer
kafka -> sparkStreaming -> kafkapackage Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProd...原创 2019-12-26 19:18:51 · 529 阅读 · 0 评论 -
SparkStreaming与Kafka010之05 监控Spark程序 获取Metrics信息 addStreamingListener或读取http信息解析json串
要获取Metrics信息,监控1.加监听:新的办法,直接一句话搞定ssc. addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener2.老办法:解析Metrics的json串信息 好像是http请求之类的返回json串而且一般请求的4040...原创 2019-12-26 17:32:14 · 2521 阅读 · 0 评论 -
SparkStreaming与Kafka010之05之04 广播变量的变化重置 与redis监控的结合
1.这个记录的实例就是说,接了上一篇的代码修改,加了广播变量的东西。我在mysql存的某个规则,我启动sparkStreaming程序的时候使用broadcast广播出去,注意这个就仅执行一次的然后吧在redis有这么一个kv作为标志,比如说flag=true,每次sparkStreaming程序程序处理数据用到规则之前,都要先到redis看一下这个标志位变没变。如果有其他程序或者人为修改...原创 2019-12-26 16:09:19 · 437 阅读 · 0 评论 -
SparkStreaming与Kafka010之03 Consumer的offset 从外部存储Redis读取并保存offsets,
1.这个文章记录我从redis管理kafka的Consumer的offsets,是sparkStreaming作为Consumer的版本的话kafka010,sparkStreaming 2.2.0,redis应该2.9.0 pom文件放在最后2.主要的代码就两个一个是Kafka010Demo03,另一个就是RedisUtilsDemo。然后其他就是连接redis读取配置文件的代码了。...原创 2019-12-26 15:22:33 · 566 阅读 · 0 评论 -
SparkStreaming与Kafka010之05之02 Consumer的offset 自定义设置offset
package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.SparkConfimport org....原创 2019-12-24 21:04:19 · 302 阅读 · 0 评论 -
SparkStreaming与Kafka010之05之01 Consumer
package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamim...原创 2019-12-24 20:17:05 · 399 阅读 · 0 评论 -
SparkStreamingOffsetMysql将偏移量保存到MySQL中
<dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spa...原创 2019-12-21 10:46:08 · 625 阅读 · 0 评论 -
SparkStreaming将结果输出到单个文件以及小文件的合并
SparkStreaming将结果输出到单个文件以及小文件的合并sparkStreaming消费kafka数据…每个duration批次时间数据量不一定多少,若数据量太少,首先每个批次处理数据后会有多个分区的小文件,解决办法1. 是在结果落地前重分区,每个批次只生成一个文件,那么要是这一个文件数据量也很小,落地到hive还是会影响查询效率那么解决办法2. 就用在hive定时执行一个i...原创 2019-11-25 21:04:20 · 2549 阅读 · 0 评论 -
理解RDD、DataFrame、Dataset区别
理解RDD、DataFrame、Dataset区别文章转载自https://www.jianshu.com/p/8ab678331d95rdd优点1.强大,内置很多函数操作,group,map,filter等,方便处理结构化或非结构化数据2.面向对象编程,直接存储的java对象,类型转化也安全缺点1.由于它基本和hadoop一样万能的,因此没有针对特殊场景的优化,比如对于结构化数据...原创 2019-11-21 14:24:56 · 456 阅读 · 0 评论 -
java.sql.SQLException: No suitable driver -- sparkshell读取mysql数据load失败 未解决 (但Properties方式可以)
spark使用jdbc格式读取数据内容要将驱动jar包复制到spark的jars目录下注意是单节点的spark还是集群的spark要将jar包复制到每个节点 我就是犯了这个错误 直复制到了一个节点。加载jar包方法有几个1.启动spark shell 时,加上 --jars[root@hadoop01 spark-2.2.0-bin-hadoop2.7]# bin/spark-she...原创 2019-11-19 11:32:56 · 1388 阅读 · 1 评论 -
Spark2.2.0错误ERROR FsHistoryProvider: Exception encountered when attempting to load application log
查看spark历史日志发现错误 查阅后发现是spark2.2.0的bug在2.2.1修复[root@hadoop01 logs]# cat spark-root-org.apache.spark.deploy.history.HistoryServer-1-hadoop01.outERROR FsHistoryProvider: Exception encountered when a...原创 2019-11-19 11:15:14 · 775 阅读 · 0 评论 -
sparkStreaming的driver高可用ha
代码package com.sparkStreaming.Demo10_HAimport org.apache.spark.SparkContextimport org.apache.spark.sql.SparkSessionimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{S...原创 2019-11-16 21:57:26 · 514 阅读 · 0 评论 -
Exception in thread "main" java.io.IOException: No FileSystem for scheme: spark 未解决
一直报错 未解决参考:https://stackoverflow.com/questions/34041657/java-io-ioexception-no-filesystem-for-scheme-hdfs/34046904https://blog.csdn.net/h4565445654/article/details/78616439https://blog.csdn.net/duf...原创 2019-11-16 20:21:47 · 957 阅读 · 0 评论 -
Spark调优
Spark调优1.SparkCore调优1.1数据序列化Spark支持两种方式的序列化: 1、Java原生序列化JavaSerializer 2、Kryo序列KryoSerliazer序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式情况下,KryoSerializer的性能可以达到JavaSerializer的10倍以上,而对于一些Int之类的基本类型数据,性能...原创 2019-11-12 20:20:29 · 183 阅读 · 0 评论 -
idea远程调试setJars设置及遇到的问题java.lang.ClassNotFoundException: XXX$$anonfun$2
<build> <!-- 资源文件夹 --> <sourceDirectory>src/main/scala</sourceDirectory> <!-- 声明并引入构建的插件 --> <plugins> <!-- 用于编译Scala代码到class --> ...原创 2019-11-08 11:04:10 · 1471 阅读 · 0 评论 -
Spark配置historyserver
先看一下spark是否启动是访问8080端口 不是7077成功原创 2019-11-06 18:57:24 · 369 阅读 · 0 评论 -
SparkCore案例练习:统计广告ID
数据格式: timestamp province city userid adid 时间点 省份 城市 用户 广告用户ID范围:0-99省份,城市,ID相同:0-9adid:0-19统计每个省份的每个广告点击量,并取每个省份点击量的topnpackage exerciseimport ...原创 2019-11-04 19:44:48 · 917 阅读 · 0 评论 -
对combineByKey的理解,aggregateByKey
参数:(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)1.作用:对相同K,把V合并成一个集合。2.参数描述:(1)createCombiner:combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就和之前的某个元素的键相同...原创 2019-11-01 21:34:22 · 1330 阅读 · 2 评论 -
关于IDEA本地运行任务内存不足的问题
在Eclipse里开发spark项目,尝试直接在spark里运行程序的时候,遇到下面这个报错:ERROR SparkContext: Error initializing SparkContext.java.lang.IllegalArgumentException: System memory 468189184 must be at least 4.718592E8. Please use...原创 2019-11-01 14:30:22 · 1372 阅读 · 0 评论 -
Spark安装步骤及第一次启动failed to launch: nice -n 0错误
基本条件:同步时间、免密登录、关闭防火墙、安装JDK1.8在安装spark之前emmm我有三台虚拟机hadoop01hadoop02hadoop03然后jdk1.7就是因为这个我第一启动时failed to launch: nice -n 0错误哦 对了 网上好多说配置 /root/.bashrc 文件在后面加上export JAVA_HOME= /usr/local/jd...原创 2019-08-22 20:27:03 · 10786 阅读 · 0 评论