自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(271)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 ha高可用集群一站式搭建

VMware11 已经装好CenOS6.5镜像hadoop-2.7.1安装包Linux的JDK1.8安装包1.安装VMrare11 自行安装2.安装CenOS6.5Linux下mysql的安装 CentOS6.5就是安装 一台 Linux的虚拟机 使用的镜像是CentOS6.53.修改主机名和映射’安装完成了Linux默认用户是root密码是刚刚自己设置的我的是12345...

2019-08-31 21:28:53 333

原创 checkpointing过程 机制

checkpointing过程 机制即secondarynamenode怎么工作的,做什么工作的.NameNode和SecondaryNamenode对fsimage与edits的操作请大家看完指正!!! 肯定有不对的地方,感谢!个人理解:1.刚开启服务,namenode主动将edits和fsimage合并。2.SecondaryNamenode刚开启不做操作,它是namenode的助...

2019-08-31 20:50:47 413

原创 优化代码逻辑之 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo2

这篇代码是KNN的优化,代码就是flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于 有个大数据的思想:分而治之求出一份数据最大的前一百个数 如果数据太多,内存太小,则将数据切割成多份每份求出前一百 然后这多份的前一百再求出真正的前一百TODO 优化的地方使用 广播变量进行广播2、没有跟上一个代码一样嵌套两层循环 比如y在外面 ...

2019-12-30 22:01:00 740

原创 K-近邻算法之鸢尾花实例 使用Spark实现KNN的Demo

1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离可以通过如...

2019-12-30 17:15:51 1838

原创 Spark读取json文件优化

转载自过往记忆(https://www.iteblog.com/)在我们的 AB 测试实验中,用于跟踪数据的文件按年、月和日划分到不同文件夹中,文中中每一行都是一个 JSON 字符串,每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表,那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件,程序得到了每...

2019-12-28 12:02:49 1411

原创 SparkStreaming与Kafka010之06 SparkStreaming读取kafka数据再写出到kafka Consumer/ Producer

kafka -> sparkStreaming -> kafkapackage Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProd...

2019-12-26 19:18:51 468

原创 SparkStreaming与Kafka010之05 监控Spark程序 获取Metrics信息 addStreamingListener或读取http信息解析json串

要获取Metrics信息,监控1.加监听:新的办法,直接一句话搞定ssc. addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener2.老办法:解析Metrics的json串信息 好像是http请求之类的返回json串而且一般请求的4040...

2019-12-26 17:32:14 2487

原创 SparkStreaming与Kafka010之05之04 广播变量的变化重置 与redis监控的结合

1.这个记录的实例就是说,接了上一篇的代码修改,加了广播变量的东西。我在mysql存的某个规则,我启动sparkStreaming程序的时候使用broadcast广播出去,注意这个就仅执行一次的然后吧在redis有这么一个kv作为标志,比如说flag=true,每次sparkStreaming程序程序处理数据用到规则之前,都要先到redis看一下这个标志位变没变。如果有其他程序或者人为修改...

2019-12-26 16:09:19 383

原创 SparkStreaming与Kafka010之03 Consumer的offset 从外部存储Redis读取并保存offsets,

1.这个文章记录我从redis管理kafka的Consumer的offsets,是sparkStreaming作为Consumer的版本的话kafka010,sparkStreaming 2.2.0,redis应该2.9.0 pom文件放在最后2.主要的代码就两个一个是Kafka010Demo03,另一个就是RedisUtilsDemo。然后其他就是连接redis读取配置文件的代码了。...

2019-12-26 15:22:33 525

原创 Kafka0-10版本之00 Producer生产者的简单使用,往kafka循环打入数据

package Kafka010.Utilsimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}/** * Created by Shi shuai RollerQing on 2019/12/24 20:1...

2019-12-26 14:51:17 347

原创 SparkStreaming与Kafka010之05之02 Consumer的offset 自定义设置offset

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.SparkConfimport org....

2019-12-24 21:04:19 267

原创 SparkStreaming与Kafka010之05之01 Consumer

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamim...

2019-12-24 20:17:05 368

原创 SparkStreamingOffsetMysql将偏移量保存到MySQL中

<dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spa...

2019-12-21 10:46:08 581

原创 Flink之自定义JDBC Sink 写入mysql数据

先建表数据sensor_1, 1547718199, 35.80018327300259sensor_6, 1547718201, 15.402984393403084sensor_7, 1547718202, 6.720945201171228sensor_10, 1547718205, 38.101067604893444sensor_1, 1547718206, 35.1se...

2019-12-19 17:46:11 4467 3

原创 Flink之自定义Source

主函数有4中读取数据方式1.从集合中读取数据env.fromCollection(List(…))2.从文件中读取数据env.readTextFile(path)3.从kafka中读取数据 env.addSource(new FlinkKafkaConsumer[String](“sensor”, new SimpleStringSchema(), properties))4. 第四种就...

2019-12-19 09:39:50 1046 3

原创 Flink的WordCount实现(Java和Scala)

Java实现WordCountpackage com.flink.Java;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.utils.ParameterToo...

2019-12-16 19:54:10 1243

原创 Flink的Sink_API_Demo (kafka sink 、redis sink 、es sink)

Flink没有类似于spark中foreach方法,让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 myDstream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外,需要用户自定义实现sink。pom文件说明下面是几个Sink的Demo。当然要提前建立Maven工程,并导...

2019-12-05 11:59:02 1015

原创 Scala 中把 样例类转换成为JSON字符串

Scala 中把 样例类转换成为JSON字符串fastjson无法转换 case class 为json<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3....

2019-12-05 10:59:54 1586

原创 hivesql之lateral view explode遇到记录为空情况

在正常解析一个有值的字符串时,用lateral view explode是完全ok的,但是,当遇到该字符串为空时,如果在使用该函数,就会导致该条记录消失。这时候需要加个outer lateral view outer explode...

2019-11-29 16:28:13 2705

原创 SparkStreaming将结果输出到单个文件以及小文件的合并

SparkStreaming将结果输出到单个文件以及小文件的合并sparkStreaming消费kafka数据…每个duration批次时间数据量不一定多少,若数据量太少,首先每个批次处理数据后会有多个分区的小文件,解决办法1. 是在结果落地前重分区,每个批次只生成一个文件,那么要是这一个文件数据量也很小,落地到hive还是会影响查询效率那么解决办法2. 就用在hive定时执行一个i...

2019-11-25 21:04:20 2487

原创 ElasticSearch之中文分词插件ik

说明:1.我的es集群 在三台节点:hadoop01 hadoop02 hadoop03为了启动es,三台节点分别创建了普通用户hadoop并ssh了2.安装ik时注意使用普通用户,免得装好后重启集群造成ik文件夹权限问题,es读不到3.自己再记录一下ssh步骤直记录其中一台如hadoop03对hadoop01 02 03三台的免密登录 其他两台一样的配置hadoop03下操作 最好...

2019-11-22 20:20:02 648

原创 理解RDD、DataFrame、Dataset区别

理解RDD、DataFrame、Dataset区别文章转载自https://www.jianshu.com/p/8ab678331d95rdd优点1.强大,内置很多函数操作,group,map,filter等,方便处理结构化或非结构化数据2.面向对象编程,直接存储的java对象,类型转化也安全缺点1.由于它基本和hadoop一样万能的,因此没有针对特殊场景的优化,比如对于结构化数据...

2019-11-21 14:24:56 427

原创 log4j.properties log4j2.properties

log4j.propertielog4j.appender.Stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.Stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.Stdout.layout.conversionPattern=%-5p - %-26.26c{1} - %...

2019-11-21 11:37:09 747

原创 kafka修改topic副本数

本文完全转载自如下https://www.cnblogs.com/hongfeng2019/p/11210229.htmlkafka修改topic副本数工作案例:大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险。需要立刻把副本数改为3个。开始干活,首先想到的是下面的命令:${BIN_PATH}/kafka-topics.sh --zoo...

2019-11-21 10:47:58 2467

原创 JavaAPI操作es出现NoNodeAvailableException[None of the configured nodes are available:{192.168.37.111}

NoNodeAvailableException[None of the configured nodes are available: [{#transport#-1}{9FWCcWUvQVCwQp4VGbT6rA}{192.168.37.111}{192.168.37.111:9300}, {#transport#-2}{VGaN7CMWTqaM9fpnhSLv0A}{192.168.37.1...

2019-11-20 21:13:57 421

原创 linux安装npm和node

一、下载Node官网下载链接:https://nodejs.org/zh-cn/download/tar.xz结尾 以tar -xf 解压[root@hadoop03 home]# tar -xf /home/node-v12.13.1-linux-x64.tar.xz -C /usr/local/我下载了最新版看了别人的操作 做了软链接 然后node -v 或npm -v 有错误...

2019-11-20 15:24:09 308

原创 logstash启动报错Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c5330000...

LS_JAVA_OPTS="-server -Xms256m -Xmx512m -XX:PermSize=128m -XX:MaxPermSize=256m"③修改logstash核心的执行文件 在bin目录下,有一个可执行的文件logstash,需要添加参数:(可以先不用设置,报错的话再设置) LS_JAVA_OPTS="-server -Xms256m -Xmx512m -XX:Pe...

2019-11-19 20:25:31 1081

原创 java.sql.SQLException: No suitable driver -- sparkshell读取mysql数据load失败 未解决 (但Properties方式可以)

spark使用jdbc格式读取数据内容要将驱动jar包复制到spark的jars目录下注意是单节点的spark还是集群的spark要将jar包复制到每个节点 我就是犯了这个错误 直复制到了一个节点。加载jar包方法有几个1.启动spark shell 时,加上 --jars[root@hadoop01 spark-2.2.0-bin-hadoop2.7]# bin/spark-she...

2019-11-19 11:32:56 1250 1

原创 Spark2.2.0错误ERROR FsHistoryProvider: Exception encountered when attempting to load application log

查看spark历史日志发现错误 查阅后发现是spark2.2.0的bug在2.2.1修复[root@hadoop01 logs]# cat spark-root-org.apache.spark.deploy.history.HistoryServer-1-hadoop01.outERROR FsHistoryProvider: Exception encountered when a...

2019-11-19 11:15:14 726

原创 sparkStreaming的driver高可用ha

代码package com.sparkStreaming.Demo10_HAimport org.apache.spark.SparkContextimport org.apache.spark.sql.SparkSessionimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{S...

2019-11-16 21:57:26 454

原创 Exception in thread "main" java.io.IOException: No FileSystem for scheme: spark 未解决

一直报错 未解决参考:https://stackoverflow.com/questions/34041657/java-io-ioexception-no-filesystem-for-scheme-hdfs/34046904https://blog.csdn.net/h4565445654/article/details/78616439https://blog.csdn.net/duf...

2019-11-16 20:21:47 890

原创 kafka根据key或value分区时的策略

kafka根据key或value分区时的策略String.hashCode()会返回负值

2019-11-13 20:16:54 3178

原创 Kafka集群扩展以及重新分布分区

转载自过往记忆(https://www.iteblog.com/)本文链接: 【Kafka集群扩展以及重新分布分区】(https://www.iteblog.com/archives/1611.html)我们往已经部署好的Kafka集群里面添加机器是最正常不过的需求,而且添加起来非常地方便,我们需要做的事是从已经部署好的Kafka节点中复制相应的配置文件,然后把里面的broker id修改成全...

2019-11-13 19:26:23 260

原创 Spark调优

Spark调优1.SparkCore调优1.1数据序列化Spark支持两种方式的序列化:​ 1、Java原生序列化JavaSerializer​ 2、Kryo序列KryoSerliazer序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式情况下,KryoSerializer的性能可以达到JavaSerializer的10倍以上,而对于一些Int之类的基本类型数据,性能...

2019-11-12 20:20:29 145

原创 kafka无法关闭的解决方法

kafka提供了关闭脚本,但是我运行的时候报错:关闭失败修改kafka-server-stop.sh将#PIDS=$(ps ax | grep -i 'kafka\.Kafka' | grep java | grep -v grep | awk '{print $1}')改为PIDS=$(ps ax | grep -i 'Kafka' | grep java | grep -v ...

2019-11-12 11:53:10 2176

原创 idea远程调试setJars设置及遇到的问题java.lang.ClassNotFoundException: XXX$$anonfun$2

<build> <!-- 资源文件夹 --> <sourceDirectory>src/main/scala</sourceDirectory> <!-- 声明并引入构建的插件 --> <plugins> <!-- 用于编译Scala代码到class --> ...

2019-11-08 11:04:10 1392

原创 Spark配置historyserver

先看一下spark是否启动是访问8080端口 不是7077成功

2019-11-06 18:57:24 319

原创 Akka通信Demo

一个Master一个Worker还有一个WorkerInfo类 封装Worker信息一个RemoteMsg 放样例类Masterpackage Akka.RpcTestimport akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collect...

2019-11-05 09:47:32 289

原创 SparkCore案例练习:统计广告ID

数据格式: timestamp province city userid adid 时间点 省份 城市 用户 广告用户ID范围:0-99省份,城市,ID相同:0-9adid:0-19统计每个省份的每个广告点击量,并取每个省份点击量的topnpackage exerciseimport ...

2019-11-04 19:44:48 841

原创 mysql数据库的读写分离 主从复制

mysql数据库的读写分离 主从复制一:前言大型网站为了软解大量的并发访问,除了在网站实现分布式负载均衡,远远不够。到了数据业务层、数据访问层,如果还是传统的数据结构,或者只是单单靠一台服务器来处理如此多的数据库连接操作,数据库必然会崩溃,特别是数据丢失的话,后果更是不堪设想。这时候,我们会考虑如何减少数据库的连接,下面就进入我们今天的主题。二:如何实现利用主从数据库来实现读写分离...

2019-11-04 09:08:52 155

学生信息管理系统C++.zip

学生信息管理系统,使用C++,亲测可用,这个参考别人的代码,但是修改了好多,本来还不能用,修改后可以使用。适合C++小白。 使用前须在D盘下新建一个student.txt 或者你自己改路径。我使用CodeBlocks运行的。

2019-06-25

JavaWeb水果商铺

JavaWeb水果商铺 实现了登录注册 添加购物车清除购物车 点击支付 文件整体编码格式Gbk 不排除个别文件utf-8 有数据库代码 用navicat先建一个fruit的utf-8数据库 然后运行该sql文件

2019-03-31

Java打地鼠小游戏

Java写的打地鼠小游戏 基本每句都有注解 第二个页面重写了一遍 lv顺了一下思路

2019-03-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除