tom_fans
码龄8年
关注
提问 私信
  • 博客:282,683
    社区:8,701
    问答:444
    学院:5,875
    297,703
    总访问量
  • 96
    原创
  • 922,165
    排名
  • 92
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-06-30
博客简介:

tom_fans的博客

博客描述:
大数据架构运维开发
查看详细资料
个人成就
  • 获得71次点赞
  • 内容获得105次评论
  • 获得326次收藏
  • 代码片获得215次分享
创作历程
  • 18篇
    2020年
  • 17篇
    2019年
  • 21篇
    2018年
  • 40篇
    2017年
成就勋章
TA的专栏
  • Docker
    5篇
  • k8s
    5篇
  • Flink
    7篇
  • Hadoop
    15篇
  • Hbase
    15篇
  • Spark
    8篇
  • Hive
    2篇
  • oozie
    1篇
  • Storm
    4篇
  • Flume
    2篇
  • Sqoop
  • Mapreduce
    8篇
  • Kafka
    9篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
TA的社区
  • 王佳隆的课程社区_NO_1
    1 成员 73 内容
    创建者
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Harbor/Docker: x509: certificate signed by unknown authority

完成Harbor安装之后,我们使用docker login/push/pull去与Harbor打交道,上传下载镜像等。 但是发现出现x509: certificate signed by unknown authority之类的错误。[root@test01 harbor.dev]# docker login harbor.devAuthenticating with existing credentials...Login did not succeed, error: Error respon
原创
发布博客 2020.07.27 ·
25180 阅读 ·
7 点赞 ·
2 评论 ·
11 收藏

Harbor高可用方案

Harbor高可用官方只提供了一种,就是harbor服务器之间通过同步的镜像的方式。比如harbor A有新的image会自动同步给harbor B,在harbor B上传的镜像也同样会同步给harbor A.这种方式在底层数据库及存储是相互独立的,只是把docker image同步过去。除了镜像同步,harbor还可以使用共享数据库及存储的方式同步。今天主要来说一下通过镜像同步的方式,harbor安装普通安装一样,2台安装好之后,设置仓库管理及复制管理,然后随便在一台harbor上传镜像,另外一台
原创
发布博客 2020.07.24 ·
1524 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Harbor单机安装

官方文档:https://goharbor.io/docs/2.0.0/install-config/installation-prereqs/1. 下载Harbor, 并解压缩https://github.com/goharbor/harbor/releases/download/v1.10.4/harbor-offline-installer-v1.10.4.tgz2. ssl配置这一步尽量作,因为我之前不配置ssl发现无法启动harbor,根据官方文档配置即可。整体的步骤为生成
原创
发布博客 2020.07.24 ·
793 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

kubeadm安装Kubernetes,kubernetes-dashboard

在安装之前,先看一下官方的kubernetes架构图。Stacked etcd topologyExternal etcd topology区别仅仅是etcd是否集成在master node,还是单独安装。前者为叠加模式,后者为external etcd模式。那么这2者什么区别呢? 按照官方的描述,集成模式etcd只和同一台机器的apiserver, controller-mananger, scheduler沟通,仅仅就是这个区别。etcd的高可用模式原理是一台leader,多个f
原创
发布博客 2020.07.07 ·
1010 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Docker与flannel

docker默认采用的是端口映射的方式来让外部访问,比如你启动一个MySQL,在container内部会有一个虚拟ip,默认是172.17之类的网段,宿主机可以ping通这个ip地址,但是除了宿主机能访问这个虚拟网段,其他任何机器(不管是否docker还是非docker)都无法访问,这个很容易理解,因为这个网段的ip本身就是虚拟出来的。因此要访问docker容器的方式采用的是端口映射,通过虚拟ip网段和宿主机映射端口,你直接访问宿主机的端口就可以了。比如:e91703882bd0 .
原创
发布博客 2020.07.03 ·
574 阅读 ·
0 点赞 ·
2 评论 ·
3 收藏

kubernetes etcd ssl安装

etcd是一个类似于ZK的玩意,用来给分布式系统存储key-value数据,官方给了明确的定义:etcd is a strongly consistent, distributed key-value store that provides a reliable way to store data that needs to be accessed by a distributed system or cluster of machines. It gracefully handles leader
原创
发布博客 2020.07.02 ·
559 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Docker MySQL

1. Dockerfile#Version: 0.0.1FROM os/centosMAINTAINER jialong wang "largelove@163.com"RUN yum remove -y mysqlRUN groupadd mysqlRUN useradd -g mysql mysqlRUN yum install -y http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpmRUN yum
原创
发布博客 2020.06.22 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink keyed State

Flink做sum, reduce等聚合的时候,我们一般直接使用Flink自带的sum, reduce来完成,有的需求需要自己写代码来完成。这其中的原理就是keyed state. 具体 可以参考:https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/stream/state/state.html所以keyed state就是状态的意思,根据key做分区,每次计算的值要做记录,这样下次可以在这个 值的基础上做累加,.
原创
发布博客 2020.06.16 ·
358 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink DataStream window/join

join操作一定是根据窗口来进行的,这一点很容易理解,如果没有窗口的概念 ,JOIN的规则应该怎么算?此处简单起见,使用processTime来处理。import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.JoinFunction;import org.apache.flink.api.common.functions.MapFunction;
原创
发布博客 2020.06.15 ·
331 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

实时数仓的概念及实现方式

目前企业数据架构基本也就包含3种模式,离线数仓,实时数仓,实时流。 离线数仓没有任何歧义,实时数仓和实时流之前有什么区别呢?从技术实现上,实时数仓肯定可以通过实时流来实现的,那么为什么会把这2种东西做一个区分. 在概念上,数据主题和指标会有很多,通常离线做一套,实时也会做一套,保证有些指标能实时的出数据,这部分实际上是更多的倾向报表类型,比如公司的大屏展示,而很多业务系统也需要实时的计算数据,不仅仅是报表,这部分的计算相比实时流会更复杂,会涉及到比较复杂的多表关联的问题。比如计算每种产品销售量或者销售额
原创
发布博客 2020.06.14 ·
1840 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink DataSet获取变量的4种方式

1. 通过广播变量获取import org.apache.flink.api.common.functions.RichFlatMapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.configuration.Configuration;import org.apache.flink.u
原创
发布博客 2020.06.11 ·
1030 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink waterMark

import org.apache.flink.api.common.functions.FoldFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.TimeCharacteristic;import org.apache.flink.streaming.
原创
发布博客 2020.06.11 ·
182 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink SQL

import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.api.java.typeutils.RowTypeInfo;import org.apache.flink.streaming.a.
原创
发布博客 2020.06.10 ·
518 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink JDBCOutputFormat

从数据库查询,或者插入到数据库,使用自带的JDBCOutputFormat。import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;
原创
发布博客 2020.06.10 ·
1973 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kafka-connect JDBC Source Connector

kafka-connect在连接MySQL的时候可以看上一篇的文章,通过https://debezium.io 开发的MySQL connector jar来抽取MySQL binlog. 但是对于像ORACLE, SQL SERVER等数据库,没有一个很好的开源JAR来处理,https://debezium.io公司也开发了相关的数据库的JAR,有些还在开发当中,有些操作非常复杂,我也没有去...
原创
发布博客 2020.04.03 ·
1797 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

kafka-connect实时流的应用

在实际的实时流开发当中,数据库的日志实时变化获取占了很大一部分。一般使用canal或者maxwell接入binglog,但是canal和maxwell很难按需接入,也就是说按照数据库或者按照单个表来接入。这些配置在启动canal或者maxwell之前就在配置文件配置好的,后期修改还需要增加配置再重新启动,这在生产业务中不太合适。 kafka-connect可以根据业务按需来接入,比如你需要test...
原创
发布博客 2020.03.27 ·
861 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Spark使用log4j记录日志,并在Yarn WebUi显示

spark on yarn在执行的时候,开发人员通常希望能够单独使用log4j来记录自己的日志。一般来说当我们使用System.out.println的时候,日志会输出在stdout,而且其他的日志会显示在stderr里面。那么如何使用log4j记录日志并显示在自己的日志文件中,并在Yarn WebUI呢?我们使用spark默认自带的pi程序来作为例子。/data/spark-2.4.3...
原创
发布博客 2020.03.26 ·
1295 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

Hue 查询kerberos HBase: failed authentication to hbase

CDH集群并开启了kerberos,最近要打开Hue查询HBASE的功能,打开之后发现HUE右上角报错:failed authentication to hbase. 查询hue管理界面检查配置发现hbase browser错误之类的。参考网上,基本没有任何一篇文章给出完全正确或者清晰的答案,都是涉及了一部分。 因此做个记录:通过CM修改配置如下:1.hbase.regionse...
原创
发布博客 2020.03.17 ·
835 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

neo4j 节点如何选择在graph中显示那个属性

答:

设置一个属性 {name:"xxxx"}即可

回答问题 2019.12.06

Flink 同步Kafka数据,压缩并存储到HDFS

此文章只是做一个记录,获取数据同步到HDFS比较简单,官网有完整的代码,主要是如下:DataStream<Tuple2<IntWritable,Text>> input = ...;BucketingSink<Tuple2<IntWritable,Text>> sink = new BucketingSink<Tuple2<In...
原创
发布博客 2019.08.21 ·
2645 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏
加载更多