![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 53
大数据
永远sayYES
这个作者很懒,什么都没留下…
展开
-
ClickHouse为什么这么快 - 减少数据扫描范围
相信看过ClickHouse性能测试报告的同学都很震惊于他超高的OLAP查询性能。于是下一步开始搜索“ClickHouse性能为什么高”看到了例如:列存储、数据压缩、并行处理、向量化引擎 等等一些关键词,对于我们一般人来说,并没有解答心中的疑惑:ClickHouse性能为什么高? 于是想写几篇博文,用通俗、简单的实例和大家一起探讨一下这个问题,希望能通过博文和大家的探讨解答这个疑惑!针对OLAP类的查询最简单的优化方式就是减少数据扫描范围,故而我们以此作为开篇。问题:有一个表(tab01)有10个in转载 2021-07-20 11:43:05 · 279 阅读 · 0 评论 -
Flink实现物联网流数据处理的一个demo
package examples;import org.apache.flink.api.common.eventtime.WatermarkStrategy;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.java.tuple.Tuple3;import org.apache.flink.streaming.api.datastream.DataStream;impo原创 2021-01-15 19:39:29 · 1035 阅读 · 0 评论 -
大数据 - Flink与KAFKA的集成(六)
WhatFlink实现了各种类型的连接器(Connector)来实现数据在不同平台上的读写。使用Java和Scala编程支持Kafka、Twitter、RabbitMQ、ElasticSearch、Cassandra等各种组件和Flink的整合。Flink既可以把数据输出给Kafka,也可以接收从Kafka输入的数据。How(Flink -> KAFKA)环境a. KAFKA: Version2.13b. Flink: Version1.11POM配置<dependency&原创 2020-09-27 09:31:04 · 631 阅读 · 0 评论 -
大数据 - Flink安装及使用(五)
是什么Flink的前身是以构建下一代大数据分析平台为目标的大学科研项目Stratosphere。其于2014年4月被捐赠给Apache软件基金会作为孵化项目,并于同年年底升级为Apache的顶级项目。Flink是基于实时流处理的一个组件。数据流可以分为无界流和有界流。无界流(DataStream)只有开始而没有结束,比如,外汇市场的不间断交易、服务器日志的持续生成等是无界流;而统计电商网站某个注册用户一周的交易量、生成某个用户每月的话费清单等是有界流(DataSet),它定义了开始节点和结束节点,并且这原创 2020-09-17 11:38:29 · 263 阅读 · 0 评论 -
大数据 - KAFKA简介以及与Flume的集成(四)
KAFKAKafka是一个分布式、多副本、多订阅者的日志系统(或称作“分布式消息队列系统”),可用来处理持续的数据流。各个节点之间的状态协调可通过ZooKeeper完成,Kafka常用于Web站点的日志收集、日志检索、日志监控和消息服务等。Kafka是一个分布式、可弹性伸缩的消息队列。运行Kafka要依赖ZooKeeper。主题、分区、偏移量、生产者和消费者是Kafka中的几个核心概念。Broker是Kafka的核心,Broker有多种部署方式。KAFKA ConnectorKafka Connec原创 2020-09-11 14:01:23 · 124 阅读 · 1 评论 -
大数据 - Flume的安装及使用(三)
是什么Flume是一个分布式、高可靠、高可用的日志采集系统,可实现从不同来源的系统中将大容量的日志数据采集、汇总和搬移到一个集中式的数据存储中。Flume是流式大数据中的数据采集组件,可用于接收日志文件或报文数据。通过配置文件就可以定义各种数据路由方式,基本上不用编码。flume-ng agent命令是其中最主要的命令。Flume的Source、Channel和Sink都支持被配置为一个或多个,以实现数据分层或叠加。Source中的选择器(selector)可实现数据路由;Source中的原创 2020-09-11 13:36:09 · 327 阅读 · 0 评论 -
大数据 - MapReduce单机环境搭建(二)
先决条件确保已经配置好HDFS环境:https://blog.csdn.net/hudmhacker/article/details/108364402配置文件配置mapred-site.xml<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </prope原创 2020-09-02 17:18:06 · 271 阅读 · 0 评论 -
大数据 - HDFS单机环境搭建(一)
一、服务器操作系统:CentOS Linux release 7.6.1810 (Core)二、JAVAJDK1.8:oraclce官网下载jdk-8u261-linux-x64.tar.gz命令行环境:配置/etc/profile命令行环境export JAVA_HOME=/usr/local/java/jdk1.8.0_261export PATH=$JAVA_HOME/bin:$PATH三、HDFS下载hadoop安装包,这里我下载的是hadoop2.10版本,https:/原创 2020-09-02 16:31:15 · 1326 阅读 · 0 评论