蜗牛@漫步-CSDN博客

原创文字识别（OCR）介绍与开源方案对比

OCR基本介绍与OCR开源项目情况优缺点对比

2023-07-10 14:32:55 10355 1

一般真实的流都是无界的，要处理无界的数据，就需要把无界数据切为有界数据。窗口（window）就是将无限流切割为有限流的一种方式。它会将流数据分发到有限大小的桶（bucket）中进行分析。Flink 提供了非常完善的窗口机制，这是 Flink 最大的亮点之一。第一个方法代表开启一个滚动窗口，参数size:滚动时间长度。第二个方法代表开启一个滑动窗口，参数size: 滚动时间长度，slide: 滑动间隔。

2023-03-15 16:27:55 499 1

原创 windows最小化安装mysql8

windows安装mysql8 最小化安装

2023-01-19 00:41:38 1886

原创 Flink API分层

Flink API 分层介绍

2022-10-13 15:44:55 1085

原创 hudi安装

数据湖hudi安装教程

2022-07-04 16:09:10 2379

原创 Flume写入hive错误记录

Flume写入hive错误记录

2022-03-24 16:37:22 3570 1

原创 java创建二叉树

最近有人问二叉树问题，这里写点文章记录一下。如下二叉树，如何用java在代码里创建出来？关注这方面的，大概都知道一个二叉树有前序、中序、后序，层序共4种遍历方法。不清楚的看我的另一篇文章：https://blog.csdn.net/weixin_36939535/article/details/115910919这里可以用一个数组把来表示上图二叉树：[1, 2, 0, 3, 4, 0, 0, 0, 5, 6, 0, 0, 7, 8, 9, 0, 0, 0, 0]定义一个树的节点public

2021-04-20 17:00:10 7679 4

原创二叉树的遍历

二叉树的遍历是一个经常会问到的知识点，做为程序员的必备基础。因为他是数据结构中很重要的一部分，由它也衍生出了很多扩展的数据结构，如平衡二叉树、红黑树、B+树等，一些数据库也常用树结构，如MySql就用的B+树。本文介绍一下二叉树的遍历方式。二叉树按访问次序，可以分为四种：前序遍历：从二叉树的根结点出发，当第一次到达结点时就输出结点数据。中序遍历：从二叉树的根结点出发，当第二次到达结点时就输出结点数据。后序遍历：从二叉树的根结点出发，当第三次到达结点时就输出结点数据。层序遍历：按照树的层次自上而

2021-04-20 16:32:35 395

原创 Flink最新常用算子说明 - Flink1.12

flink中提供了大量的算子，我这里简单介绍一下常用的算子及基本使用：MapDataStream → DataStream输入一个元素产生一个元素，map的功能是对输入的元素进行转换操作。一个映射函数，将输入流元素的值加倍：dataStream.map { x => x * 2 }FlatMapDataStream → DataStream输入一个元素并产生0、1或多个元素。这个算子多用于拆分操作。可将句子拆分为单词：dataStream.flatMap { str =&

2021-04-07 15:40:19 440

原创 Push to origin/master was rejected的解决办法

在提交代码时出现Push to origin/master was rejected，网上解决办法，我这里汇总记录一下。发生错误的可能：我是先在idea上开发项目，然后想把代码导入到GitLab上，然后在GitLab上创建仓库后，在导入时出现的错误：Push to origin/master was rejected。我网上查了一下，是因为第一次pull的时候，本地也GitLab的差别太大，所以git拒绝合并两个不相干的东西。解决办法：调出命令行在使用idea的环境下，按Alt+F12，调

2021-04-06 14:57:40 2359 2

原创 Flink的窗口聚合

Flink在开启窗口后，经常会对数据进行聚合操作，本文介绍一下Flink的窗口聚合。Flink的窗口聚合的分类分为两类：全量聚合和增量聚合。增量聚合：是每来一条数据计算一次增量数据，窗口时间到了后输出。方法：ReduceFunction和AggregateFunction全量聚合：每来一条数据都放在内存中，当窗口时间到了后，一起计算然后输出。方法：ProcessWindowFunction所以，如果你的内存有限的情况，要谨慎使用全量聚合，以免内存溢出。1. ReduceFunction -

2021-03-31 16:49:53 1231

原创 flink的窗口介绍

在真实世界中的，无时无刻不在生产数据，这些数据都是无界的，窗口的存在就是将无界的的数据流切割为有限的数据流的方式。一般来说，根据业务类型，窗口可以分成两大类：1、时间窗口2、计数窗口...

2021-03-31 15:02:07 266

原创 savepoint的命令实际操作，yarn平台运行

本人的Flink是运行在yarn上的，所以官方部分命令要稍加变化才可生效。1、使用 YARN 触发 Savepoint官方命令：$ bin/flink savepoint :jobId [:targetDirectory] -yid :yarnAppId运行命令：bin/flink savepoint a5169da6ddc48969d0ecb54bc93815eb hdfs:///flink/savepointtest/ -yid application_1613609174694_0233

2021-02-24 16:17:17 557

原创 Flink的Savepoint机制

一、什么是savepoint？savepoint与checkpoint有何不同？Flink有检查点（checkpoint）和保存点（savepoint），他们有很多相似的地方，但作用却不相同。Checkpoints的主要目的是在意外的作业失败的情况下提供一种恢复机制。Checkpoint的生命周期由Flink管理，即Checkpoint由Flink创建，拥有和发布，无需用户交互。作为一种恢复和定期触发的方法，Checkpoint实现的两个主要设计目标是：i）创建起来轻巧ii）尽可能快地恢复。与所有

2021-02-23 17:05:27 993

原创 Flink任务的失败恢复

在我们写完Flink程序并部署服务器上后，我们希望程序会一直运行下去。但总会有很多情况会导致全部或部分任务出现异常而导致程序中止，这个时候就希望任务能够自动处理这些异常情况。在Flink中提供了4种重启策略，这里简单记录一下。一、固定延迟重启策略固定延迟重新启动策略尝试给定次数重新启动作业。如果超过最大尝试次数，则该作业最终将失败。在两次连续的重新启动尝试之间，重新启动策略将等待固定的时间。通过在中设置以下配置参数，默认启用此策略flink-conf.yaml。restart-strategy:

2021-02-23 16:05:49 1123

原创有状态与无状态

最近在看一些架构文章，提到有状态与状态，对之概念有点模糊，这里记录一下。有状态对象与无状态对象1、有状态就是有数据存储功能。有状态对象(Stateful Bean)，就是有实例变量的对象，可以保存数据，是非线程安全的。在不同方法调用间不保留任何状态。2、无状态就是一次操作，不能保存数据。无状态对象(Stateless Bean)，就是没有实例变量的对象.不能保存数据，是不变类，是线程安全的。有状态服务与无状态服务对服务器程序来说，究竟是有状态服务，还是无状态服务，其判断依旧是指两个来自相同

2020-06-18 15:29:57 5344

原创 redis可视化工具 - fastoredis

redis可视化工具中，可能大家用的比较多的是RedisDesktopManager工具，不过这个工具有缺点，如果Redis中数据量太多，则每次打开就要好久，有时甚至打不开，如下图，我的数据已经超过两千万，打开十分费劲！-------------------------------------------------分隔线------------------------------------...

2019-11-25 16:53:23 4585 3

原创 Linux安装Mysql

卸载Mysql：若该系统已经安装过mysql需要卸载，然后重新进行安装Mysql5+。这里可以参考下面的命令进行删除。1. yum remove mysql mysql-server mysql-libs mysql-server2. find / -name mysql :将找到的相关东西delete掉；3. rpm -qa|grep mysql(若有，将查询出来的东西yum remov...

2019-10-22 16:01:53 140

原创测试IP和端口是否通

有些网站不稳定，可以测试网站及端口是否被封。1 将自己IP和端口分别输入以下两个网站的测试栏中国内测试http://tool.chinaz.com/port国外测试https://www.yougetsignal.com/tools/open-ports/2 总结如果国内显示开放，那么是正常情况。如果国内的显示关闭，国外显示开放，那么就是IP被国内封锁了。如果两个都关闭，那么检查......

2019-09-24 22:36:33 4944

原创 Logstash的使用（从Kafka到ES）

Logstash介绍Logstash是一个数据收集处理转发系统，是 Java开源项目。它只做三件事：输入、清洗过滤和输出。如下图：logstash通过在配置文件编写输入（input），过滤清洗（filter），输出（output）相关规则，对数据收集转发。具体可以在安装目录下的conf/目录下新建配置文件，如logstash_indexer.conf如下#输入input { ...

2019-09-05 17:48:56 2282

原创五笔字根口诀

一、五笔字根表二、五笔字根口诀12G 王旁青头戋（兼）五一（“兼”与“戋”同音）H 目具上止卜虎皮（“具上”指具字的上部）F 土士二干十寸雨（可别忘了革字底）J 日早两竖与虫依D 大犬三羊古石厂（羊底龙头套上套下)K 口与川，字根稀S 木丁西L 田甲方框四车力（“方框”即“口”）A 工戈草头右框七（“右框”即“匚”)M 山由贝，...

2019-05-08 15:08:27 218001 9

原创 idea 常用快捷键-持续更新

我的最常用快捷键Ctrl+Up/Down，光标不动，页面向上或向下移动Alt+Up/Down，在方法间快速移动定位Ctrl+Shift+Up/Down，向上/下移动语句Ctrl+B/Ctrl+Click，快速打开光标处的类或方法Ctrl+Alt+left/right，返回至上次浏览的位置，向前或向后Ctrl+P，可以显示参数信息Ctrl+X，删除当前行Ctrl+D，向下复制一行C...

2019-04-29 16:31:33 257

转载 Spark核心技术原理透视一（Spark运行原理）

在大数据领域，只有深挖数据科学领域，走在学术前沿，才能在底层算法和模型方面走在前面，从而占据领先地位。Spark的这种学术基因，使得它从一开始就在大数据领域建立了一定优势。无论是性能，还是方案的统一性，对比传统的Hadoop，优势都非常明显。Spark提供的基于RDD的一体化解决方案，将MapReduce、Streaming、SQL、Machine Learning、Graph Processi...

2019-03-07 11:16:02 259

原创安装PostGis2.5.2

在我之前的文章中，已经介绍安装了postgresql10.6，飞机：https://blog.csdn.net/weixin_36939535/article/details/86703949，这里讲下PostGis的安装，我这里安装的最新版2.5.2，话不多说，开始。安装Proj4wget http://download.osgeo.org/proj/proj-4.9.3.tar.gz...

2019-01-30 16:45:36 2143

原创 CentOS7.2安装Postgresql10.6

安装Postgresql10.6创建postgres用户和组groupadd -g 101 dbauseradd -u 501 -g dba -G root -d /usr/local/pgsql postgres安装依赖包yum install -y python-devel perl-ExtUtils-Embed python-devel gcc-c++ openssl-d...

2019-01-30 15:31:40 2079 1

原创 CentOS安装HDP集群遇到的问题记录

这里主要记录一下安装hdp集群时遇到的问题。看过我博客的可能会知道我之前装的是Ambari2.6.2，HDP2.6.5，安装到这里出现各种问题，后来领导说版本低，自己就直接重装并提高了版本，安装的是最新版Ambari2.7.3和HDP3.1.0，系统CentOS7.2。前面安装过程都差不多，就不说了，到这里依然有各种错误。这里就记录下遇到的错误。错误1. ambari自动在我的/etc/yu...

2019-01-03 17:04:07 13854 4

原创 CentOS7.2安装HDP集群-1 环境准备

配置静态IPvi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0HWADDR=00:0C:29:AF:65:27TYPE=EthernetUUID=269569e1-f888-4f73-b2f7-7af45225b572ONBOOT=yesNM_CONTROLLED=yesBOOTPROTO=noneIPADDR=1...

2019-01-02 21:38:37 222

原创 CentOS安装HDP集群- 制作本地源

配置本地yum源1. 下载资源在官网上可以找到源地址，如图：以上做标记的都要下载，文件过大，时间有点慢，其中包含Ambari和HDP的源：这里把包全放在/usr/local/src/Ambari/目录下cd /usr/local/src/Ambari/# Ambari 2.6.2.2 Repositorieswget http://public-repo-1.hortonwor...

2018-12-29 10:24:03 595 1

原创 CentOS安装HDP集群-3 使用Ambari安装HDP集群

在上篇文章中，已经介绍并安装了Ambari服务器，给个链接：https://blog.csdn.net/weixin_36939535/article/details/85275596这里就用它来部署HDP集群，体验一下 Ambari 的方便之处。1. 启动Ambari集群安装向导在Ambari Welcome页面中，选择Launch Install Wizard。2. 给集群起个名字...

2018-12-28 16:09:12 575

原创 CentOS安装HDP集群-1 安装mysql、Ambari

安装HDP前，先要安装Ambari，它提供了图形化安装和管理hadoop集群。CDH官网：https://docs.hortonworks.com/index.html可以选择版本下载：然后点安装后面就到安装文档页面了,后面可以根据它来安装了。本次安装环境介绍下,系统：CentOS6.8，三台主机，安装Ambari2.6.2，HDP2.6.5用root用户安装。基础环境准备：...

2018-12-28 11:49:43 784

原创 CDH5.15升级最新版spark2.3

之前安装CDH5.15后，spark版本是1.6，太低了，这里说一下安装最新版spark2.3，因为1.6和2.3是可以共存的，所以也不能算是升级了，不啰嗦，上干货。下载安装包到CDH官网下载对应的spark的parcel包到CDH官网下载对应的spark的parcel包http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera4/...

2018-11-27 15:26:22 1130 1

原创 CDH安装Geomesa

在前面的文章中，楼主介绍过Geomesa的安装，不过都是基本独立组件的hadoop、zk、hbase等，本次讲解CDH集群安装Geomesa的过程。CDH的安装楼主之前文章也写过，大家可以翻翻参考下。进入正题，CDH安装Geomesa:下载安装包第一步当然是找安装包，可以自己编译，参考我之前的文章前几步。https://blog.csdn.net/weixin_36939535/art...

2018-11-06 22:13:00 1165 3

原创 Apache Atlas 安装

官网：http://atlas.apache.org/Downloads.html一般安装会让大家去官网下载包，然后自己编译，时间较长，也容易出现各种错误，我这里编译好一个，分享给大家，直接用这个解压就可以用了，很方便链接：https://download.csdn.net/download/weixin_36939535/10726594以下是正常安装方式：先在官网上下载资源包。我...

2018-10-17 14:51:22 2301 3

原创 ntp服务在线同步时间

本人安装的CDH集群，主机关机一段时间后，开机发现时间相差很多，之前配置的是本地时间，所以要同步在线时间。之前的配置如下图：现在时间：关闭ntp服务service ntpd stop同步时间ntpdate 0.cn.pool.ntp.org启动服务service ntpd start测试在次查看时间正常：附一些可用的同步时钟：server 0...

2018-10-06 21:17:28 3667

原创 Centos6安装CDH5.15.1最详细版-5 浏览器安装ClouderaManager

浏览器访问地址：http://hadoop-2:7180cloudera-scm-server访问这个地址要等一会大约几分钟，重启以后重新配置数据库及创建表需要时间

2018-10-02 23:17:43 917 1

原创 Centos6安装CDH5.15.1最详细版-4 安装Cloudera Manager

配置网络yum源为阿里云源完全离线的话可以不做三台服务器都需要配置1.1 备份原来的配置mkdir -p /etc/yum.repos.d/bakmv /etc/yum.repos.d/*.repo /etc/yum.repos.d/bak1.2 下载新的CentOS-Base.repo 到/etc/yum.repos.d/wget -O /etc/yum.repos.d/Ce...

2018-10-02 18:25:36 958

原创 Centos6安装CDH5.15.1最详细版-3 安装Mysql数据库

安装Mysql建立目录，可以把CDH相关安装包都入在里面：mkdir -p /opt/software/cloudera/CDH-5.15.1本地网络太慢，这里都用服务器下载安装包，要先装wget服务。安装包准备Cloudera Manager安装包cm5.14.2-centos6.tar.gzwget http://archive.cloudera.com...

2018-10-02 17:44:13 1504 1

原创 Centos6安装CDH5.15.1最详细版-2 免密登录、java、ntp服务安装

配置ssh免密登录1）生成密钥ssh-keygen -t rsa执行后一路回车2）然后复制公钥cd ~/.ssh/cp id_rsa.pub authorized_keys# 下面的命令是把其他主机的公钥复制到本机ssh-copy-id -i hadoop-1ssh-copy-id -i hadoop-2ssh-copy-id -i hadoop-33）最后测试连...

2018-10-01 00:55:58 945

原创 Centos6安装CDH5.15.1最详细版-1 环境准备工作

我这里是之前装的三台虚拟机，如下：192.168.201.81 hadoop-1192.168.201.82 hadoop-2192.168.201.83 hadoop-3准备工作：配置静态IPvi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0HWADDR=00:0C:29:AF:65:27TYPE=Etherne...

2018-09-30 22:47:22 1901

原创虚拟机网络配置

之前有写虚拟机安装，完了后在vnc上操作安装好的虚拟机是太麻烦，必须要配置网络。步骤：1.进入目录编辑vi /etc/sysconfig/network-scripts/ifcfg-eth0如下配置：DEVICE=eth0 // 设备名称HWADDR=00:0C:29:65:B7:F5 #网卡设备MAC地址TYPE=Ethernet #网卡类型UUID=63f6f146-72c0...

2018-09-26 10:31:51 269

geomesa-hbase安装包

Apache Atlas编译好的tar包

Apache Atlas编译好的包

kudu-client驱动

rabbitmq-client4.1

rabbitmq-client

空空如也