XK&RM
码龄7年
关注
提问 私信
  • 博客:54,163
    54,163
    总访问量
  • 90
    原创
  • 1,764,996
    排名
  • 9
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2017-12-07
博客简介:

qq_41301707的博客

查看详细资料
个人成就
  • 获得18次点赞
  • 内容获得11次评论
  • 获得80次收藏
创作历程
  • 25篇
    2021年
  • 28篇
    2020年
  • 28篇
    2019年
  • 11篇
    2018年
成就勋章
TA的专栏
  • Flink
    6篇
  • ELK
    3篇
  • ClickHouse
    1篇
  • CDH
    2篇
  • Phoenix
    2篇
  • HBase
    2篇
  • Scala
    5篇
  • Kafka
    3篇
  • zookeeper
    1篇
  • JavaSE
    2篇
  • protobuf
    1篇
  • Hue
    1篇
  • Flume
    1篇
  • Sqoop
    2篇
  • 调度工具
    1篇
  • Linux
    10篇
  • MySQL
    6篇
  • Hadoop
    27篇
  • Hive
    11篇
  • Spark
    4篇
  • dos
    1篇
  • Python
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink Task && SubTask

Flink Task && SubTask1. 基本概念Task(任务):Task 是一个阶段多个功能相同 subTask 的集合,类似于 Spark 中的 TaskSet。subTask(子任务):subTask 是 Flink 中任务最小执行单元,是一个 Java 类的实例,这个 Java 类中有属性和方法,完成具体的计算逻辑。Operator Chains(算子链):没有 shuffle 的多个算子合并在一个 subTask 中,就形成了 Operator Chains,类似
原创
发布博客 2021.03.22 ·
871 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

Flink -- WEB && Standalone Clusters

目录1. Flink Web2. Flink Standalone Clusters 部署2.1 下载&&解压2.2 修改配置文件2.3 启动 Flink 集群2.4 提交一个应用程序1. Flink WebFlink 对标 Spark,Spark 自带了一个 Web 页面可以查看 Job 的执行情况,Flink 运行过程中,查看打印的 Log 中没有发现对应的 Web。Flink 中如果需要打开 WEB 页面,则需要添加一个依赖。<dependency> &
原创
发布博客 2021.03.21 ·
515 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink--初识 DataStream Connector Kafka

目录1. 增加 POM 文件2. 使用 Kafka 作为 Source2.1 创建 Topic2.2 Code3. 使用 Kafka 作为 Sink3.1 CodeFlink 作为比较适合流式处理的计算框架,在流式处理当中,比较搭配的消息中间件为 Kafka本次使用的 Kafka 版本为 2.1.0-cdh6.2.0Flink 版本为 1.11.2,Scala 版本为 2.12.10官网Flink provides an Apache Kafka connector for reading d
原创
发布博客 2021.03.19 ·
316 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink DataStream 常用 Transformations 算子、测流、自定义分区器

目录1. DataStream 常用 Transformations 算子1.1 Map1.2 FlatMap1.3 Filter1.4 KeyBy1.5 Reduce1.6 Fold1.7 Aggregations1.8 Union1.9 Connect1.10 Split + Select2. 测流2.1 Filter 分流2.2 Split + Select 分流2.3 测流输出3. 自定义分区器1. DataStream 常用 Transformations 算子数据hadoop,spar
原创
发布博客 2021.03.08 ·
683 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink DataStream 数据源及并行度

目录1. Flink 内置数据源1.1 读取一个文件1.2 读取自定义数据1.3 读取 Socket 数据2. Flink 自定义数据源2.1 SourceFunction 实现读取 Mysql 数据2.2 ParallelSourceFunction 实现读取 Mysql 数据2.3 RichParallelSourceFunction 实现读取 Mysql 数据3. RichFunction一个 Flink 应用程序执行需要以下五个步骤:Obtain an execution environme
原创
发布博客 2021.02.18 ·
901 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

初识 Flink

初识 Flink按照惯例先介绍下官网Flink 官网1. 什么是 FlinkApache Flink是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态计算。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。Flink 用于处理 Unbounded 、Bounded 数据。Unbounded 数据指的是无边界的数据,实时数据。Bounded 数据指的是有边界的数据,离线数据。...
原创
发布博客 2021.02.17 ·
197 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Elasticsearch 复杂查询

目录需求1. 造数据2. 使用 ES 命令查询2.1 语文的最大分数是多少2.2 所有人的平均分2.3 每个科目有多少人2.4 分数大于80以上的有多少人2.5 每个科目平均分多少需求数据内容:id、name、age、subject、score求:语文的最大分数是多少所有人的平均分每个科目有多少人分数大于80以上的有多少人每个科目平均分多少1. 造数据@Testpublic void testMakeData() throws IOException { Random
原创
发布博客 2021.02.16 ·
535 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

初识 Elasticsearch

初识 Elasticsearch官网1. Elasticsearch 简介Elasticsearch 是 Elastic Stack 的核心。Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。 作为 Elastic Stack 的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。优点:速度特别快。可扩展性很好。弹性很好(健壮性很强大)。灵活性(支持结构化和非结构化数据)。1.1 Elasticsea
原创
发布博客 2021.02.16 ·
684 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

初识 Kibana

初识 Kibana官网Kibana 是一个开放的用户界面,能够让您对 Elasticsearch 数据进行可视化,并让您在 Elastic Stack 中进行导航。您可以进行各种操作,从跟踪查询负载,到理解请求如何流经您的整个应用,都能轻松完成。本次部署采用的版本为 7.9.31. Kibana 部署前提需要部署 Elasticsearch2. Kibana 部署下载地址[hadoop@bigdata ~]$ cd software/[hadoop@bigdata software
原创
发布博客 2021.02.16 ·
252 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

初识ClickHouse

目录1. ClickHouse 介绍2. 部署 ClickHouse2.1 检查机器环境是否可以部署 ClickHouse2.2 部署 ClickHouse2.3 启动 ClickHouse3. 修改 ClickHouse 配置文件4. ClickHouse 默认重要的路径5. ClickHouse 基本操作5.1 创建一个数据库5.2 创建一张表5.3 插入一笔数据5.4 查询数据5.5 修改数据5.6 删除数据6. ClickHouse 常用数据类型6.1 Int 类型6.2 Float 类型6.3 D
原创
发布博客 2021.02.14 ·
2407 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

CDH 动态资源池

CDH 动态资源池CDH 的动态资源池类似于 Yarn 中的队列概念差不多现在有这样一个需求,开发环境中,就只有一套 CDH 的集群,不同的用户组使用不同的硬件资源,这时候可以通过动态资源池来实现这个功能。需求:一个 CDH 集群里面有开发人员和 BI 人员,开发人员可以使用 Yarn 中的百分之六十资源,BI 人员可以使用 CDH 中的百分之四十资源。...
原创
发布博客 2021.02.13 ·
931 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

CDH 5.16.2 部署

CDH 5.16.2 部署Cloudera 官网本次我们部署环境为 CDH 5.16.2本次部署使用的是三台 2 核 16 G 机器1. 部署的方式1.1 bin在线部署优点:通过 shell 脚本一键部署,比较方便。缺点:需要互联网在线下载安装包,如果网络抖动则不会成功。1.2 rpm 部署优点:官网推荐的,部署还算比较简单。缺点:部署 Server、Agent rpm 时候需要网络下载依赖包。1.3 tar 部署真正的离线部署,本次部署就是采用 tar 部署。2
原创
发布博客 2021.02.10 ·
1499 阅读 ·
2 点赞 ·
3 评论 ·
6 收藏

Phoenix 二级索引

Phoenix 二级索引1. 什么是 Phoenix 的二级索引二级索引是从主键访问数据的正交方式。Hbase中有一个按照字典排序的主键Rowkey作为单一的索引。不按照Rowkey去读取记录都要遍历整张表,然后按照你指定的过滤条件过滤。通过二级索引,索引的列或表达式形成一个备用行键,以允许沿着这个新轴进行点查找和范围扫描。2. Phoenix 中的盐表Phoenix 中的盐表其本质就是类似于 HBase RowKey 盐表一样,Phoenix 通过指定主键以及 salt_buckets ,
原创
发布博客 2021.02.09 ·
929 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Phoenix 入门基础

目录1. 部署 Phoenix1.1 部署前提1.2 下载并解压 Phoenix1.3 重新部署 HBase1.4 启动 PHoenix2. Phoenix 数据类型3. Phoenix 常用语法3.1 创建一个 DataBase3.2 创建表3.3 插入数据3.4 查询数据3.5 删除数据3.6 删除表Phoenix 官网Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使
原创
发布博客 2021.02.08 ·
643 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase 进阶

Hbase 进阶HBase 1.4 参数地址1. HBase MemStore Flush1.1 MemStore 概述之前给大家简单介绍了 MemStore,这里需要介绍 MemStore 的 Flush,再介绍一下 MemStore。在 HBase 中,Region是最小的数据服务单元,一个表是由一个或者多个 Region 组成的。在 Region 中又根据 ColumnFamily (列簇)的数量分为一个或者多个 Store,一个ColumnFamily 对应一个 Store。每个 Sto
原创
发布博客 2021.02.05 ·
678 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hbase 的基础入门

Hbase 的基础入门HBase 官网本次安装部署的是 cdh 5.16.2 系列1. HBase 部署HBase 下载地址1.1 HBase 部署前提需要部署 Hadoop,HBase 的数据最终存储在 HDFS 上面需要部署Zookeeper,HBase 的元数据存储在 Zookeeper 上面1.2 HBase 下载以及修改配置文件[root@bigdatatest01 ~]# cd software/[root@bigdatatest01 software]# wget
原创
发布博客 2021.02.02 ·
927 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka--API使用以及优化

目录1. Kafka Producer API1.1 创建一个Topic1.2 启动一个测试 Topic 的消费者1.3 Kafka Producer API2. 查看Kafka 数据目录里面的数据3. Kafka 参数调优3.1 Kafka Broker 参数3.2 Kafka Producer 参数3.3 Kafka Consumer 参数1. Kafka Producer APIKafka 一般在大数据中是作为流式处理中的消息中间件使用的,数据生产者一般为:1) Canal/Maxwell(My
原创
发布博客 2021.01.30 ·
430 阅读 ·
0 点赞 ·
4 评论 ·
0 收藏

初识Scalikejdbc

初识Scalikejdbc官网ScalikeJDBC 是一款给 Scala 开发者使用的简洁 DB 访问类库,它是基于 SQL 的,使用者只需要关注 SQL 逻辑的编写,所有的数据库操作都交给 ScalikeJDBC。这个类库内置包含了JDBC API,并且给用户提供了简单易用并且非常灵活的 API。并且,QueryDSL(通用查询查询框架)使你的代码类型安全的并且可重复使用。我们可以在生产环境大胆地使用这款 DB 访问类库。本次使用的 Scala 版本为 2.12.101. POM 中
原创
发布博客 2021.01.28 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala--隐式转换、读取文件及控制台数据、泛型

目录1. 隐式转换1.1 两个类之间的隐式转换1.2 隐式参数1.3 隐式转换作用域2. 读取文件数据3. 读取控制台数据1. 隐式转换1.1 两个类之间的隐式转换在日常工作中,在引用其他 jar 的时候,可能会出现当前 jar 不能满足当前的业务需求,希望开发一些新的 API 来进行操作,如果是自己公司开发的 jar 还好,但是可能会遇到无法修改的 jar,这时候可以使用 Scala 中的隐式转换。两个类之前的隐式转换,我们可以理解成 简单的类转换成了加强的类,加强的类不仅有简单的类的功能
原创
发布博客 2021.01.27 ·
294 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Kafka简介以及部署

Kafka简介以及部署Kafka 官网1. Kafka 介绍1.1 什么是KafkaKafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。无论是kafka集群,还是consumer都依赖于Zookeeper集群保存一些meta信息,来保证系统可用性。1.2 Kafka 优点解耦:在项目启动之初来预测将来项目会碰到什么
原创
发布博客 2021.01.27 ·
608 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多