2020年12月_菜鸟也学大数据

12月 11月 10月 09月 08月 07月

原创全面认识当前市面99%的大数据技术框架（附:各大厂大数据技术应用文章）

大数据面试题(完整）2020大数据面试题真题总结(附答案)：点击这里技术栈Hadoop万亿数据下 Hadoop 的核心竞争力：点击这里HBaseHBase应用与高可用实践：点击这里Kafka基于 Kafka 的实时计算引擎如何选择？Spark or Flink ？：点击这里Kafka 应用实践与生态集成：点击这里Druid深入分析Druid存储结构：点击这里Kylin、Druid、ClickHouse核心技术对比：点击这里ClickHouseClickHouse的核心特性及架构：

2020-12-20 18:49:58 3305 1

原创 Flume介绍、架构、安装以及使用

Flume包：flume-ng-1.6.0-cdh5.14.0.tarFlume安装流程第一步：解压Flume包:tar -zxvf /opt/flume-ng-1.6.0-cdh5.14.0.tar.gz -C /opt第二步：修改包名mv /opt/apache-flume-1.6.0-cdh5.14.0-bin /opt/Flume160第三步：拷贝一份Flume160/conf下的flume-env.sh.template：cp /opt/Flume160/conf/flume-env.

2020-12-01 00:06:41 478

原创 Flink window详解

什么是窗口？一般真实的流都是无界的，怎样处理无界的数据?可以把无限的数据流进行切分，得到有限的数据集进行处理一也就是得到有界流窗口(window) 就是将无限流切割为有限流的一种方式，它会将流数据分发到有限大小的桶(bucket) 中进行分析窗口类型时间窗口(Time Window)滚动时间窗C]滑动时间窗口会话窗口计数窗口(Count Window)滚动计数窗口滑动计数窗口滚动窗口将数据依据固定的窗度长度对数据进行切分时间对齐，窗口长度固定，没有重叠滑动窗

2020-12-31 12:45:36 538

原创 Flink自定义Sink

示例:Flink写入MySQL创建Maven项目修改pom.xm文件 <!- 添加以下依赖，根据自己使用的版本进行修改 -> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version> &

2020-12-31 10:45:13 1089

原创 Flink Transform算子详解

原文参考地址：https://www.cnblogs.com/javazhiyin/p/13597319.htmlMap映射：将数据流中的数据进行转换, 形成新的数据流，消费一个元素并产出一个元素参数：Scala匿名函数或MapFunction返回：DataStreamimport org.apache.flink.streaming.api.scala._object Transfrom_map { def main(args: Array[String]): Unit = {.

2020-12-30 00:15:55 534

原创 Flink Source(数据源）

以内存数据作为数据源env.fromCollection(List(1, 2, 3, 4, 5, 6))以文件作为数据源env.readTextFile("路径/文件名.格式")以端口作为数据源env.socketTextStream("192.168.**.**",端口号)以Kafka作为数据源 val prop = new Properties() prop.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.16

2020-12-29 23:43:05 945

原创 Apache Flink框架以及运行原理

Apache Flink架构JobManger(作业管理器)TaskManger(任务管理器)ResourceMager(资源管理器)Dispacher(分发器)JobManager控制一个应用程序执行的主进程，也就是说，每个应用程序都会被一个不同的JobManager所控制执行。JobManager会先接收到要执行的应用程序,这个应用程序会包括:作业图(JobGraph)、逻辑数据流图(logical dataflow graph)和打包了所有的类、库和其它资源的JAR包。JobM

2020-12-29 17:36:05 367

原创 Flink输出数据至Kafka

创建Maven项目配置Pom.xml文件 <!- 根据自己使用的版本进行修改版本号 -> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version> </dependency>

2020-12-29 17:24:29 1259

原创 Flink自定义数据源Source

实现自定义数据源import org.apache.flink.streaming.api.functions.source.SourceFunctionimport org.apache.flink.streaming.api.scala._import scala.util.Random//自定义数据类型case class WaterSensor(id:String,ts:Long,vc:Double)//创建类并继承SourceFunction指定类型class MySource e

2020-12-28 17:46:32 753

原创 Flink读取Kafka中的数据

创建Maven项目配置pom.xml文件 <!- 根据自己使用的版本情况进行修改版本号 -> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version> </dependency&gt

2020-12-28 17:12:36 1370

原创学习上传Flink Job任务：实现WordCount

首先实现Job任务的Jar包使用Idea创建maven项目修改pom.xml文件：添加依赖 <!- 根据自己使用的scala与flink的版本修改版本号 -> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</

2020-12-28 12:24:44 322 4

原创学习Apache Flink的第一个示例

示例使用Idea创建Maven项目添加Flink依赖 <!- 根据自己的需求添加依赖这里仅需要以下两个，修改对应的scala版本，以及所想用的flink版本-> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2<

2020-12-27 21:54:15 150

原创 Spark Streaming时间窗口示例

示例采集Kafka中数据实现Spark Streaming类import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.streaming.dstream.{DStream,

2020-12-22 21:39:11 746

原创 SparkStreaming自定义采集器

实现自定义采集器类import java.io.{BufferedReader, InputStreamReader}import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds

2020-12-21 17:15:14 258 2

原创 SparkStreaming采集Kafka数据

实现SparkStreaming类import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.streaming.dstream.{DStream, InputDStream}import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}im

2020-12-21 16:57:40 188

原创 SparkStreaming简单示例

实现SparkStream类：两个版本二选一即可实现SparkStream类(Scala版)import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreamDemo { def main.

2020-12-21 16:42:54 376

原创 Kafka Stream时间窗口示例

示例一：设置时间窗口为5秒创建Topickafka-topics.sh --create --zookeeper 192.168.**.**:2181 --topic windowdemo --partitions 1 --replication-factor 1启动生产者kafka-console-producer.sh --topic windowdemo --broker-list 127.0.0.1:9092JAVA创建类import org.apache.kafka.common.

2020-12-16 23:06:44 1209

原创 Kafka Stream简单示例

示例：WordCount步骤简述创建wordcount-input Topic创建wordcount-out Topic创建生产者创建消费者JAVA实现Stream实现操作创建wordcount-input Topickafka-topics.sh --create --zookeeper 192.168.**.**:2181 --topic wordcount-input --partitions 1 --replication-factor 1创建wordcount-out T

2020-12-16 00:07:05 777 2

原创 JournalNode的作用

原文地址：点击这里JournalNode的作用NameNode之间共享数据两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JournalNodes中的变更信息，并且一直监控editlog的变化，把变化应用于自己的命名空间。standby可以确保在集群出错时，命名空间状态已经完全同步了。...

2020-12-09 17:28:33 1833

原创 Flume到Kafka

Kafka创建Topic创建Topic：fk_rawkafka-topics.sh --create --zookeeper 192.168.**.**:2181 --topic fk_raw --partitions 1 --replication-factor 1Flume创建agent在flume/conf目录下创建：vi /opt/flume/conf/fk.conf 输入以下内容#定义sources名称fk.sources=fkSource#定义channels名称fk.

2020-12-08 17:02:07 173

原创学习使用JAVA操作Kafka

实现生产者(Producer)Kafka创建测试Topic#Topic名称为test，分区为3，副本为1kafka-topics.sh --create --zookeeper 192.168.**.**:2181 --topic test --partitions 3 --replication-factor 1JAVA配置pom.xml文件  <dependency> &lt

2020-12-07 17:53:51 856

原创 Kafka安装配置与操作命令

Kafka安装配置我是使用的版本时2.11第一步：解压包tar -zxvf /opt/kafka_2.11-2.0.0.tgz -C /opt第二步：修改解压后的包名``

2020-12-04 12:37:22 176

原创 Maven打Jar包同时包含依赖

修改Pom.xml文件添加一些配置信息<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.3</version> <configuration> <source>1.8</source

2020-12-03 08:54:01 1359 2

原创 Flume 自定义拦截器

简述：本篇具体操作内容，在idea上实现自定义拦截器后打成jar包上传至linux上的Flume/lib目录下，然后在Linux上使用Flume实现监控端口7777，自己开启使用7777端口输入数据，数据输出至HDFS上自定义拦截器(interceptors)在Idea新建maven项目，并添加Flume依赖，根据自己使用的Flume版本修改版本号 <dependency> <groupId>org.apache.flume</groupId>.

2020-12-01 22:06:45 289

大数据项目文档.rar

完整的项目开发文档，可以了解真实的项目开发流程

2021-01-31

Hive练习数据包.zip

2020-12-11

MySQL-client-5.6.46-1.el7.x86_64.rpm

Linux安装MySQL客户端所需文件

2020-08-11

虚拟机--VM15.5.1版本.zip

很好用的一个版本，上传csdn保存一下，防止以后弄丢（50个字太难凑了，有需要的的可以试试，怎么还没50个字，快了快了，）

2020-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人