关于我转生变成程序猿这档事
码龄5年
关注
提问 私信
  • 博客:142,456
    142,456
    总访问量
  • 190
    原创
  • 2,326,827
    排名
  • 49
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-11-09
博客简介:

关于我转生变成程序猿这档事

博客描述:
做一切事的前提,都是要打好基础
查看详细资料
个人成就
  • 获得57次点赞
  • 内容获得30次评论
  • 获得320次收藏
  • 代码片获得1,498次分享
创作历程
  • 2篇
    2021年
  • 162篇
    2020年
  • 26篇
    2019年
成就勋章
TA的专栏
  • 大数据
    3篇
  • H2
    1篇
  • ZooKeeper
    1篇
  • HBase
    16篇
  • 各种报错
    7篇
  • Java
    1篇
  • Elasticsearch
    2篇
  • Hadoop
    3篇
  • Linux
    1篇
  • Flink
    14篇
  • Spark
    24篇
  • Scala
    13篇
  • Hadoop离线基础总结
    51篇
  • Kafka
    15篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【H2Database】通过官方文档学习 H2 数据库,从了解到实践

H2 Database概述下载安装1. 下载2. 安装3. 启动4. 测试概述→点击这里,进入 H2 官网链接H2 数据库是一个 Java 开发的嵌入式数据库,它本身就是一个 jar 包,可以直接嵌入到应用项目中。官网给出了主要特点有:▷ 速度快▷ 开源▷ 支持 JDBC API▷ 拥有嵌入式模式和服务器模式▷ 内存存储的数据库▷ 拥有基于浏览器的控制台应用程序▷ 占用空间小:大概 2MB 左右的 jar 包文件下载安装1. 下载H2 下载地址:https://h2datab
原创
发布博客 2021.01.26 ·
1881 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【ZooKeeper】从基础知识到应用实践

ZooKeeper1. 理论基础知识1.1 概述1.2 架构组成1.3 主要特点1. 理论基础知识1.1 概述ZooKeeper 是一个致力于分布式协调服务的开源框架,主要是用来解决分布式集群中经常受困扰的一致性问题(比如避免同时操作同一数据时造成的数据脏读问题)。从本质来看,ZooKeeper 其实是一个分布式的小文件存储系统,提供目录树的数据存储方式,并可以对树中的节点进行有效管理(也就像平常电脑系统对文件夹和文件的管理)。ZooKeeper 还提供了给客户端监控存储在其中内部数据的功能。从
原创
发布博客 2021.01.20 ·
1182 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

关于在 Java 调用 Kafka 的 ConsumerAPI 之后无法消费的问题 [‘consumer‘ has raw type, so result of poll is erased ]

记录一下工作中遇到的关于 Kafka 的问题,具体工作流程是 Mysql 通过 DataX 同步到 Kafka 中,再通过 DataX 把 Kafka 的数据同步到 Elasticsearch,大概就是下图的一个流程:执行任务发现可以读取到 Mysql 的数据,自己在控制台用命令行消费自动创建的 Topic 也可以消费到数据,但是 Java API 中 consumer.poll 之后的 records 是空的,没有拿到任何数据,并且 IDEA 给出了一个警告:Unchecked assignmen
原创
发布博客 2020.11.12 ·
2940 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Java基础】获取子字符串在父字符串中出现的次数

仅代码,暂无实例/** * 计算子字符串出现的次数 * * @param parentStr * @param childStr * @return */public static int getChildStrCounts(String parentStr, String childStr) { int propsIndex = 0; int counts = 0; // properties 出现几次代表字段嵌套几层 while (par
原创
发布博客 2020.11.04 ·
372 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Elasticsearch】使用 PerformRequest 实现 kibana 开发控制台基础效果

文章目录概述调用方式同步异步添加 request 参数添加请求主体(boby)RequestOptions调用方式实例本文内容基本都是从官网文档整理而来,工作不易,转载请声明概述创建 RestClient 后就可以通过调用 performRequest 或 performRequestAsync 发送请求。performRequest 是同步的,当请求成功时将阻塞调用线程并返回响应,如果请求失败则抛出异常。performRequestAsync 是异步的,它接受一个 ResponseListene
原创
发布博客 2020.10.21 ·
2184 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Elasticsearch】使用 SQL 语句实现对 Elasticsearch 的查询

Elasticsearch SQL概述使用Elasticsearch 和 SQL 的概念映射SQL REST API本文内容基本都是从官网文档整理而来,工作不易,转载请声明概述Elasticsearch SQL 是为了给 Elasticsearch 提供一个强大而轻量级的 SQL 接口而存在的。Elasticsearch SQL 是一个 X-Pack 组件 (也就意味的你的Elasticsearch版本必须安装了 X-Pack 组件),它允许根据 Elasticsearch 实时执行类似 SQL
原创
发布博客 2020.10.12 ·
3960 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

【Hadoop】Yarn —— 调度计算核心

Yarn概述主要角色运行流程(重点)调度策略概述Yarn是 Hadoop 2.x 引入的新的资源管理系统模块,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,比如内存、CPU等),它不光管理硬件资源,还管理运行的一些任务信息等。Yarn调度资源可以分为两个层级:一级管理调度:管理计算机的资源、运行job任务的生命周期二级管理调度:任务的计算模型(maptask,reducetask的代码)、多样化的计算模型(spark,storm)主要角色角色作用Resour
原创
发布博客 2020.09.26 ·
451 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

【Hadoop】MapReduce —— 大数据的核心思想体现

MapReduce概述MapTask运行流程ReduceTask运行流程Shuffle 是什么?编写 Java API步骤简单 API 实例Mapper 类编写Reduce 类编写Driver 类编写概述MapReduce 的思想核心是分而治之,适用于大量复杂的任务处理场景(大规模数据处理场景)。最主要的特点就是把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一样。最主要有两个阶段:一个map阶段,负责拆分;一个是reduce阶段,负责聚合。一个文件切块(
原创
发布博客 2020.09.26 ·
639 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Hadoop】HDFS —— 大数据入门必须要了解的知识点

HDFS什么是 HDFS ?主要角色分块存储机制副本机制读写文件流程读取文件流程图写入文件流程图常用命令基础命令使用高级命令使用什么是 HDFS ?全称 Hadoop Distributed File System,中文翻译过来就是 分布式文件系统。那么,何为分布式文件系统呢?可以参考下图。这是依靠我自己的理解画出的 HDFS 的架构。从图中可以看到 HDFS 本身的一些特性:首先分布式文件系统不是由一台服务器实现的,而是多台服务器。比如 node 01/ node 02/ node 03/ 三
原创
发布博客 2020.09.26 ·
561 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Linux】yum 方式下载不到想要的包?教你快速制作本地 yum 源

制作本地 yum 源一、安装 Httpd 服务器二、放置 rpm 包三、修改 yum 源配置文件一、安装 Httpd 服务器1. 安装:yum install -y httpd2. 启动 Httpd 服务: service httpd start 或者 systemctl start httpd3. 查看 Httpd 服务是否启动: service httpd status 或者 systemctl status httpd出现下图表示 httpd 服务启动成功: 二、放置 r
原创
发布博客 2020.09.20 ·
529 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

The path component: ‘/var/lib/hadoop-hdfs‘ in ‘/var/lib/hadoop-hdfs/dn_socket‘ has permissions 0755

报错原因:java.io.IOException: The path component: ‘/var/lib/hadoop-hdfs’ in ‘/var/lib/hadoop-hdfs/dn_socket’ has permissions 0755 uid 993 and gid 991. It is not protected because it is owned by a user who is not root and not the effective user: ‘0’. This migh
原创
发布博客 2020.09.20 ·
1102 阅读 ·
2 点赞 ·
0 评论 ·
4 收藏

使用 PREFIX=PATH make install 编译 hue 报错:……setuptools pip wheel failed with error code 2

报错具体内容:OSError: Command /opt/lagou/software/…ld/env/bin/python2.7 - setuptools pip wheel failed with error code 2解决方法:1.先确定自己的 linux 服务器有没有安装 python-pip,如果没有,执行 yum -y install python-pip 安装2.更换 pip 下载源# 查看在 ~目录 下有没有 .pip 目录,如果没有则创建# 并在 .pip 目录下创建 pip
原创
发布博客 2020.09.03 ·
897 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】flink的stateful应该如何理解?

文章目录State | 状态概述算子状态(operator state)概述键控状态(keyed state)概述代码案例State | 状态概述  相信有浏览过Flink官网的朋友一定发现了,一进入官网的顶端,就有加粗的标题: Apache Flink® — Stateful Computations over Data Streams. Flink可以在流式数据上进行有状态计算。那么,有状态(Stateful)是什么意思?  官网也给出了解释,主要解释了一下什么是有状态函数(Stateful
原创
发布博客 2020.05.13 ·
1641 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【Flink】异步IO知多少?官方文档永远是最好的教科书

文章目录Asynchronous I/O for External Data Access | 用于外部数据访问的异步I/OThe need for Asynchronous I/O Operations | 异步IO操作的需要Prerequisites | 使用异步IO的前提条件Async I/O APIAsynchronous I/O for External Data Access | 用于外部数据访问的异步I/O老规矩,上来先上官方文档:https://ci.apache.org/projec
原创
发布博客 2020.05.12 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】如何处理数据延迟

文章目录迟到数据概述实例迟到数据概述官网给出的定义:Late elements are elements that arrive after the system’s event time clock (as signaled by the watermarks) has already passed the time of the late element’s timestamp. (迟到数据是指系统的事件时间时钟(由水印指示)在经过延迟元素时间戳之后的时间到达的元素。)以下观点均是看完罗西的
原创
发布博客 2020.05.11 ·
2288 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

【Flink】watermark的基本原理和简单案例

文章目录好文分享watermark简单介绍概述简单案例watermark && 滚动窗口watermark && 滑动窗口好文分享关于watermark的解读,有两篇文章对我来说都比较有用:一、《Flink Event Time Processing and Watermarks》二、《[白话解析] Flink的Watermark机制》当然,官方文档永远都属于最有用的那一档:https://ci.apache.org/projects/flink/flink-d
原创
发布博客 2020.05.11 ·
672 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】关于Time和Window的基本知识点

文章目录引言Time概述WindowTimeWindow滚动窗口 | Tumbling Windows滑动窗口 | Sliding Windows会话窗口 | Session WindowsCountWindow实例CountWindow && TimeWindowWindowReduceWindowApply引言Flink有四大基石:CheckpointStateTimeWindow这篇文章主要说一下Time和Window Time概述Event Time —
原创
发布博客 2020.05.10 ·
645 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【Flink】整合Flink和Mysql数据库,将Mysql数据库作为source和sink

文章目录Mysql作为Flink的source创建maven工程,导包开发代码Mysql作为Flink的sink开发代码Mysql作为Flink的source创建maven工程,导包<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>
原创
发布博客 2020.05.09 ·
1809 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

【Flink】如何整合flink和kafka,将kafka作为flink的source和sink

文章目录概述source分类关于addSource案例步骤创建maven工程,导包开发代码代码中涉及到的知识点反序列化Schema类型概述分类设置Kafka Consumers从哪开始消费Flink关于Kafka的动态分区检测概述source分类flink的source有四种分类:基于集合 —— 有界数据集,一般都是本地测试用基于文件 —— 适合监听文件修改并读取其内容,一般也是测试用,实际工作环境很少用基于Socket —— 坚挺住几的host port,从Socket中获取数据自定义a
原创
发布博客 2020.05.08 ·
1285 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

【Flink】从单词计数案例弄明白DataStream API

步骤1.获取Flink流处理运行环境2.构建一个socket源3.连接9999端口发送实时数据4.使用flink操作进行单词统计5.输出结果 代码开发import org.apache.flink.api.java.tuple.Tupleimport org.apache.flink.streaming.api.scala.{DataStream, StreamEx...
原创
发布博客 2020.05.08 ·
428 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多