C_time-CSDN博客

原创 ha高可用集群一站式搭建

VMware11 已经装好CenOS6.5镜像hadoop-2.7.1安装包Linux的JDK1.8安装包1.安装VMrare11 自行安装2.安装CenOS6.5Linux下mysql的安装 CentOS6.5就是安装一台 Linux的虚拟机使用的镜像是CentOS6.53.修改主机名和映射’安装完成了Linux默认用户是root密码是刚刚自己设置的我的是12345...

2019-08-31 21:28:53 333

原创 checkpointing过程机制

checkpointing过程机制即secondarynamenode怎么工作的，做什么工作的.NameNode和SecondaryNamenode对fsimage与edits的操作请大家看完指正！！！肯定有不对的地方，感谢！个人理解：1.刚开启服务，namenode主动将edits和fsimage合并。2.SecondaryNamenode刚开启不做操作，它是namenode的助...

2019-08-31 20:50:47 413

原创优化代码逻辑之 K-近邻算法之鸢尾花实例使用Spark实现KNN的Demo2

这篇代码是KNN的优化，代码就是flatMap里面的结构转换和aggregate的应用感觉有点难理解但是思想简单首先要知道这个优化是基于有个大数据的思想：分而治之求出一份数据最大的前一百个数如果数据太多，内存太小，则将数据切割成多份每份求出前一百然后这多份的前一百再求出真正的前一百TODO 优化的地方使用广播变量进行广播2、没有跟上一个代码一样嵌套两层循环比如y在外面 ...

2019-12-30 22:01:00 740

原创 K-近邻算法之鸢尾花实例使用Spark实现KNN的Demo

1.1 K-近邻算法(KNN)概念K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法定义如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover和Hart提出的一种分类算法距离公式两个样本的距离可以通过如...

2019-12-30 17:15:51 1838

转载自过往记忆（https://www.iteblog.com/）在我们的 AB 测试实验中，用于跟踪数据的文件按年、月和日划分到不同文件夹中，文中中每一行都是一个 JSON 字符串，每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表，那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件，程序得到了每...

2019-12-28 12:02:49 1411

原创 SparkStreaming与Kafka010之06 SparkStreaming读取kafka数据再写出到kafka Consumer/ Producer

kafka -> sparkStreaming -> kafkapackage Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.clients.producer.{KafkaProd...

2019-12-26 19:18:51 468

原创 SparkStreaming与Kafka010之05 监控Spark程序获取Metrics信息 addStreamingListener或读取http信息解析json串

要获取Metrics信息，监控1.加监听：新的办法，直接一句话搞定ssc. addSparkStreamingListenerSparkStreaming、spark程序都能加监听只适合spark 2.2.0以上版本 ssc. addSparkStreamingListener2.老办法：解析Metrics的json串信息好像是http请求之类的返回json串而且一般请求的4040...

2019-12-26 17:32:14 2487

原创 SparkStreaming与Kafka010之05之04 广播变量的变化重置与redis监控的结合

1.这个记录的实例就是说，接了上一篇的代码修改，加了广播变量的东西。我在mysql存的某个规则，我启动sparkStreaming程序的时候使用broadcast广播出去，注意这个就仅执行一次的然后吧在redis有这么一个kv作为标志，比如说flag=true，每次sparkStreaming程序程序处理数据用到规则之前，都要先到redis看一下这个标志位变没变。如果有其他程序或者人为修改...

2019-12-26 16:09:19 383

原创 SparkStreaming与Kafka010之03 Consumer的offset 从外部存储Redis读取并保存offsets，

1.这个文章记录我从redis管理kafka的Consumer的offsets，是sparkStreaming作为Consumer的版本的话kafka010，sparkStreaming 2.2.0，redis应该2.9.0 pom文件放在最后2.主要的代码就两个一个是Kafka010Demo03，另一个就是RedisUtilsDemo。然后其他就是连接redis读取配置文件的代码了。...

2019-12-26 15:22:33 525

原创 Kafka0-10版本之00 Producer生产者的简单使用，往kafka循环打入数据

package Kafka010.Utilsimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}/** * Created by Shi shuai RollerQing on 2019/12/24 20:1...

2019-12-26 14:51:17 347

原创 SparkStreaming与Kafka010之05之02 Consumer的offset 自定义设置offset

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.SparkConfimport org....

2019-12-24 21:04:19 267

原创 SparkStreaming与Kafka010之05之01 Consumer

package Kafka010import Kafka010.Utils.MyKafkaUtilsimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamim...

2019-12-24 20:17:05 368

原创 SparkStreamingOffsetMysql将偏移量保存到MySQL中

<dependency><dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>${spa...

2019-12-21 10:46:08 581

原创 Flink之自定义JDBC Sink 写入mysql数据

先建表数据sensor_1, 1547718199, 35.80018327300259sensor_6, 1547718201, 15.402984393403084sensor_7, 1547718202, 6.720945201171228sensor_10, 1547718205, 38.101067604893444sensor_1, 1547718206, 35.1se...

2019-12-19 17:46:11 4467 3

原创 Flink之自定义Source

主函数有4中读取数据方式1.从集合中读取数据env.fromCollection(List(…))2.从文件中读取数据env.readTextFile(path)3.从kafka中读取数据 env.addSource(new FlinkKafkaConsumer[String](“sensor”, new SimpleStringSchema(), properties))4. 第四种就...

2019-12-19 09:39:50 1046 3

原创 Flink的WordCount实现（Java和Scala）

Java实现WordCountpackage com.flink.Java;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple;import org.apache.flink.api.java.utils.ParameterToo...

2019-12-16 19:54:10 1243

原创 Flink的Sink_API_Demo (kafka sink 、redis sink 、es sink)

Flink没有类似于spark中foreach方法，让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。 myDstream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外，需要用户自定义实现sink。pom文件说明下面是几个Sink的Demo。当然要提前建立Maven工程，并导...

2019-12-05 11:59:02 1015

原创 Scala 中把样例类转换成为JSON字符串

Scala 中把样例类转换成为JSON字符串fastjson无法转换 case class 为json<dependency> <groupId>org.json4s</groupId> <artifactId>json4s-native_2.11</artifactId> <version>3....

2019-12-05 10:59:54 1586

原创 hivesql之lateral view explode遇到记录为空情况

在正常解析一个有值的字符串时，用lateral view explode是完全ok的，但是，当遇到该字符串为空时，如果在使用该函数，就会导致该条记录消失。这时候需要加个outer lateral view outer explode...

2019-11-29 16:28:13 2705

原创 SparkStreaming将结果输出到单个文件以及小文件的合并

SparkStreaming将结果输出到单个文件以及小文件的合并sparkStreaming消费kafka数据…每个duration批次时间数据量不一定多少，若数据量太少，首先每个批次处理数据后会有多个分区的小文件，解决办法1. 是在结果落地前重分区，每个批次只生成一个文件，那么要是这一个文件数据量也很小，落地到hive还是会影响查询效率那么解决办法2. 就用在hive定时执行一个i...

2019-11-25 21:04:20 2487

原创 ElasticSearch之中文分词插件ik

说明：1.我的es集群在三台节点：hadoop01 hadoop02 hadoop03为了启动es，三台节点分别创建了普通用户hadoop并ssh了2.安装ik时注意使用普通用户，免得装好后重启集群造成ik文件夹权限问题，es读不到3.自己再记录一下ssh步骤直记录其中一台如hadoop03对hadoop01 02 03三台的免密登录其他两台一样的配置hadoop03下操作最好...

2019-11-22 20:20:02 648

原创理解RDD、DataFrame、Dataset区别

理解RDD、DataFrame、Dataset区别文章转载自https://www.jianshu.com/p/8ab678331d95rdd优点1.强大，内置很多函数操作，group，map，filter等，方便处理结构化或非结构化数据2.面向对象编程，直接存储的java对象，类型转化也安全缺点1.由于它基本和hadoop一样万能的，因此没有针对特殊场景的优化，比如对于结构化数据...

2019-11-21 14:24:56 427

原创 log4j.properties log4j2.properties

log4j.propertielog4j.appender.Stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.Stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.Stdout.layout.conversionPattern=%-5p - %-26.26c{1} - %...

2019-11-21 11:37:09 747

原创 kafka修改topic副本数

本文完全转载自如下https://www.cnblogs.com/hongfeng2019/p/11210229.htmlkafka修改topic副本数工作案例:大数据开发用系统脚本自动在kafka建topic,检查后才发现副本数只有1个,存在数据丢失的风险。需要立刻把副本数改为3个。开始干活，首先想到的是下面的命令：${BIN_PATH}/kafka-topics.sh --zoo...

2019-11-21 10:47:58 2467

原创 JavaAPI操作es出现NoNodeAvailableException[None of the configured nodes are available:{192.168.37.111}

NoNodeAvailableException[None of the configured nodes are available: [{#transport#-1}{9FWCcWUvQVCwQp4VGbT6rA}{192.168.37.111}{192.168.37.111:9300}, {#transport#-2}{VGaN7CMWTqaM9fpnhSLv0A}{192.168.37.1...

2019-11-20 21:13:57 421

原创 linux安装npm和node

一、下载Node官网下载链接：https://nodejs.org/zh-cn/download/tar.xz结尾以tar -xf 解压[root@hadoop03 home]# tar -xf /home/node-v12.13.1-linux-x64.tar.xz -C /usr/local/我下载了最新版看了别人的操作做了软链接然后node -v 或npm -v 有错误...

2019-11-20 15:24:09 308

原创 logstash启动报错Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c5330000...

LS_JAVA_OPTS="-server -Xms256m -Xmx512m -XX:PermSize=128m -XX:MaxPermSize=256m"③修改logstash核心的执行文件在bin目录下，有一个可执行的文件logstash,需要添加参数：（可以先不用设置，报错的话再设置） LS_JAVA_OPTS="-server -Xms256m -Xmx512m -XX:Pe...

2019-11-19 20:25:31 1081

原创 java.sql.SQLException: No suitable driver -- sparkshell读取mysql数据load失败未解决（但Properties方式可以）

spark使用jdbc格式读取数据内容要将驱动jar包复制到spark的jars目录下注意是单节点的spark还是集群的spark要将jar包复制到每个节点我就是犯了这个错误直复制到了一个节点。加载jar包方法有几个1.启动spark shell 时，加上 --jars[root@hadoop01 spark-2.2.0-bin-hadoop2.7]# bin/spark-she...

2019-11-19 11:32:56 1250 1

原创 Spark2.2.0错误ERROR FsHistoryProvider: Exception encountered when attempting to load application log

查看spark历史日志发现错误查阅后发现是spark2.2.0的bug在2.2.1修复[root@hadoop01 logs]# cat spark-root-org.apache.spark.deploy.history.HistoryServer-1-hadoop01.outERROR FsHistoryProvider: Exception encountered when a...

2019-11-19 11:15:14 726

原创 sparkStreaming的driver高可用ha

代码package com.sparkStreaming.Demo10_HAimport org.apache.spark.SparkContextimport org.apache.spark.sql.SparkSessionimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.{S...

2019-11-16 21:57:26 454

原创 Exception in thread "main" java.io.IOException: No FileSystem for scheme: spark 未解决

一直报错未解决参考：https://stackoverflow.com/questions/34041657/java-io-ioexception-no-filesystem-for-scheme-hdfs/34046904https://blog.csdn.net/h4565445654/article/details/78616439https://blog.csdn.net/duf...

2019-11-16 20:21:47 890

原创 kafka根据key或value分区时的策略

kafka根据key或value分区时的策略String.hashCode()会返回负值

2019-11-13 20:16:54 3178

原创 Kafka集群扩展以及重新分布分区

转载自过往记忆（https://www.iteblog.com/）本文链接: 【Kafka集群扩展以及重新分布分区】（https://www.iteblog.com/archives/1611.html）我们往已经部署好的Kafka集群里面添加机器是最正常不过的需求，而且添加起来非常地方便，我们需要做的事是从已经部署好的Kafka节点中复制相应的配置文件，然后把里面的broker id修改成全...

2019-11-13 19:26:23 260

原创 Spark调优

Spark调优1.SparkCore调优1.1数据序列化Spark支持两种方式的序列化： 1、Java原生序列化JavaSerializer 2、Kryo序列KryoSerliazer序列化对于Spark应用的性能来说，具有很大的影响。在特定的数据格式情况下，KryoSerializer的性能可以达到JavaSerializer的10倍以上，而对于一些Int之类的基本类型数据，性能...

2019-11-12 20:20:29 145

原创 kafka无法关闭的解决方法

kafka提供了关闭脚本，但是我运行的时候报错：关闭失败修改kafka-server-stop.sh将#PIDS=$(ps ax | grep -i 'kafka\.Kafka' | grep java | grep -v grep | awk '{print $1}')改为PIDS=$(ps ax | grep -i 'Kafka' | grep java | grep -v ...

2019-11-12 11:53:10 2176

原创 idea远程调试setJars设置及遇到的问题java.lang.ClassNotFoundException: XXX$$anonfun$2

<build>  <sourceDirectory>src/main/scala</sourceDirectory>  <plugins>  ...

2019-11-08 11:04:10 1392

原创 Spark配置historyserver

先看一下spark是否启动是访问8080端口不是7077成功

2019-11-06 18:57:24 319

原创 Akka通信Demo

一个Master一个Worker还有一个WorkerInfo类封装Worker信息一个RemoteMsg 放样例类Masterpackage Akka.RpcTestimport akka.actor.{Actor, ActorSystem, Props}import com.typesafe.config.ConfigFactoryimport scala.collect...

2019-11-05 09:47:32 289

原创 SparkCore案例练习:统计广告ID

数据格式: timestamp province city userid adid 时间点省份城市用户广告用户ID范围:0-99省份,城市,ID相同:0-9adid:0-19统计每个省份的每个广告点击量，并取每个省份点击量的topnpackage exerciseimport ...

2019-11-04 19:44:48 841

原创 mysql数据库的读写分离主从复制

mysql数据库的读写分离主从复制一：前言大型网站为了软解大量的并发访问，除了在网站实现分布式负载均衡，远远不够。到了数据业务层、数据访问层，如果还是传统的数据结构，或者只是单单靠一台服务器来处理如此多的数据库连接操作，数据库必然会崩溃，特别是数据丢失的话，后果更是不堪设想。这时候，我们会考虑如何减少数据库的连接，下面就进入我们今天的主题。二：如何实现利用主从数据库来实现读写分离...

2019-11-04 09:08:52 155